2009/3/28

如何整理大量樣本資料 I

撰寫財務論文的過程中,必須要彙整相當多的樣本資料,若不熟悉Excel的操作及其相關功能,則將事倍功半,耗費相當多的時間且整理出來的資料對未來可用性亦不高。因此,筆者將試著把自身整理資料的過程予以彙整,試著找出一套有邏輯的方法,以節省重複學習的時間,本篇將描述該法之要點,下篇則著重於EXCEL的使用技巧,其後將陸陸續續以"論文tool"的標籤,發表其中的操作經驗。

一、資料來源
資料來源可粗分為有組織與無組織性兩種資料來源。有組織性的資料來源如彙整好的Excel檔案、關聯式(表格化)的資料庫,如TEJ、情報贏家2000、Datastream等。另外,像是國內債券市場資料、上市公司重大資訊發佈、警示股資訊等,無法一次性蒐集的資料,筆者尚稱為無組織的資料來源。有組織的資料來源,通常已經讓許多研究者分析再分析過,無論在實證結果的蒐集、資料的彙整、分析結論的對照等,皆是相當的方便,但同時也易失去獨創性。無組織的資料來源,則必須忍受資料匱乏的窘境,與最後結果不顯著的風險,卻相較有組織的資料,具有獨創性,或許在某些方面也有可能成為國內第一篇該資料的研究也不一定。
本篇將著重於無組織資料的匯整,由筆者自身經驗,加以彙整之。

二、有邏輯的擷取資料
在整理資料時,從頭到尾必須謹記一點“系統化資料處理”,請千萬別一筆一筆更動,而是一群一群資料的同步變動,這樣不但可以有助於增加處理的效率,更可在萬一資料有處理瑕疵時,尋著之前的腳步,同步返回即可,也不必怕漏了哪筆資料沒有修改到的困境。
而所謂的分類邏輯,必須視資料性質而定,同一筆資料可能兼具幾種屬性,且各屬性間或許又存在階層關係的問題,如同一筆債券交易資料中,公司代碼與該公司發行債券代碼,即存在著一公司代碼多公司債券代碼的現象,進行分類的同時,必須兼顧兩者階層關係,以有效對資料進行分類。下篇文章將以Excel內建工具介紹方便的分類工具。
此外,盡量將所需要的資料一次整理好,先以raw data的方式呈現,之後再以篩選的技術,對資料進行更細節的分類,以節省資料庫連線及搜尋資料的時間。


三、篩選資料的基本觀念
進行資料篩選時,有幾點重要事項必須注意,否則容易犯筆者之前錯誤,造成重工的現象,平白耗費許多無謂的時間。以下就一些基本觀念加以闡述。
1. 清楚的資料命名
資料的命名,必須清晰簡單,讓使用者(自己)可以快速知道資料的內涵。千萬別只因懶惰,而忘了重新命名資料的名稱,造成之後整理資料時,資料混雜的現象。而一般財務資料命名,通常都有一些常用的英文縮寫,且財務資料亦同時具備時間及公司特質,若能在Excel分頁資訊或資料命名中呈現,會更方便資料的搜尋。

2. 保留未篩選前的資料
使用Excel公式或程式,進行資料篩選完後,請記得保留未篩選前的資料及過程資料,僅將篩選後資料複製到新分頁或新檔案。這樣的程序有助於未來資料萬一發生錯誤時,還可快速的進行資料回朔。

3. 系統化篩選過程
篩選資料的過程,務必由大到小逐一篩選,若資料本身未對構面進行定義,讓必須先對資料本身先進行定義,如公司代碼、產業代碼等,對大構面先進行定義,再針對研究本身欲探究方向,再進行更細部的定義。一層一層定義清楚後,便可對資料進行篩選與分類的動作,且千萬記得將篩選完後資料另存至新分頁或新檔案,保留原始資料。

4. 建立資料代碼系統
財務分析常使用到許多跨越企業會計資訊、市場交易資訊、總體經濟資訊等資料,為了配合各資訊,如所有上市公司某年營收與公司股價,那必須給兩種資料一相同資料代碼,以快速配對兩種資料。而代碼命名大可用公司代號+期間,如仁寶(2324)2008年第四季資料,代碼即為“232420084”。

四、如何增加資料重複使用性
如果有效將擷取資料的過程都已經系統化後,資料重複使用性就會大大提昇,每次需要相同資料時,就不需要再一次進行搜尋、篩選、定義的工作,除避免重工外,更可降低人為錯誤的機率。
1. 有邏輯的檔案命名系統
較複雜的財務分析,到論文尾聲時,常會有資料混雜的現象,如果一開始沒有先做好檔案管理的工作,越到論文尾聲越是痛苦!而有邏輯的檔案系統,筆者認為必須至少表達三種重要的資訊,一為資料屬性(raw data、彙整方式)、二為資料來源或論文特殊定義(會計、股市、某資料庫)、三為時間與版本。利用建立自己習慣且易懂的檔名資訊,可以快速在眾多資料中,找到自己想要的資料,也可省去再次整理資料的時間。

2. 各別資料與彙整資料
論文進行分析時,必定由許多資料加以彙整為panel data或time series的資料型態,此建議別將彙整後的資料與資料來源混雜,而以新檔案方式將所需彙整資料一一分檔儲存。 而檔名命名方式可參考上述,只要建立一套有邏輯的檔案命名系統,再搭配Google桌面搜尋工具,無論資料多混亂,也可在短時間找到所需要的資料。


五、小結

整理資料的過程,最重要的就是筆者一再提起的有邏輯、有系統的彙整資料,先想好該怎麼整理,再動手整理,一定可以省去許多重複檢查的時間。最後,資料的備份也是整理過程中必須要注意的,當資料量過於龐大時,電腦當機的機率將大幅提昇,隨時按下Ctrl+S鍵是必須養成的好習慣,否則資料不見、作白工的慘案,將無時無刻無預警的發生...。