2021年3月14日 星期日

The First Steps of Empirical and Theoretical Research

 [實證研究]

       實證研究的第一步是蒐集數據這個步驟聽起來很簡單,實際上是做研究起頭時的一大考驗。以財金研究為例,標準的數據庫是Wharton Research Database Service (WRDS)WRDS除了每間學校都一定會有的Compustat(公司財報數據庫)以及CRSP (Center for Research in Security Prices, 證券價格的數據庫,每間學校都一定會有個股,指數以及國庫券要看學校有沒有買),還會連結到其他很多的數據庫,例如DataStreamThompson ReutersFederal Deposit Insurance Company (FDIC)NASDAQ Trade and Quote (TAQ)等等。要蒐集數據首先就是要根據研究者想做的題目,找到相對應的數據庫,然後再看要抓哪些變數以及樣本期間。每個數據庫都會有變數說明以及使用手冊,只要有細讀過的話都會知道變數的意義,以及當初數據是怎樣輸入的。

        正因為很多財金研究都跟數據有關,而且即便是理論很多也有嚴謹的數學工具支撐,金融是有資格稱為「科學」的。然而,以上提WRDS當例子還只是數據蒐集沒有困難的時候。很多時候數據蒐集並不容易,例如

  • 學校沒有買數據庫
  • 某個變數有太多遺漏值
  • 合併數據庫時要用哪個變數

而且財金研究經常會遇上內生性(Endogeneity)問題。很多時候我們除了最想看的因變數與自變數以外,還得另外審慎思考內生性的可能來源,要嘛要去抓其他的控制變數,要嘛要自己想辦法弄出一個工具變數(Instrumental variable)然後跑二階最小平方法(2-Stage Least Squared)。但工具變數如果太弱的話,結果有可能反而會比原始最小平方法還要慘烈

       「學校沒有買數據庫」我認為雖然對很多人來講非常不方便,但不方便的程度也會因人而異,因為研究者的課題不一定會需要學校沒買的數據庫。例如要做股市情緒分析或者字串研究等等的主題,很多時候如果一個人會爬蟲,他可以去蒐集某個Google關鍵字的搜尋量。至於金融機構投資組合持有(Institutional ownership)的主題,SEC的網站裡面有提供金融機構的財報以及各種給股東看的報表,一樣如果會爬蟲的話可以去抓文件裡的關鍵詞。然而,很多時候每個公司提供的格式會略有差異,而且有些公司不是每個問題都會回答,就會很容易讓字串產生遺漏值導致資料無法順利合併。而且如果要蒐集的數據太龐大,也會因為網站要限制爬蟲速度的緣故而需要時間。

       「某個變數有太多遺漏值」可能也跟以上合併資料庫的方法有問題有關係。如果只有少數幾個遺漏值的話就算了;但如果遺漏值太多的話,我們就必須去檢查我們蒐集到的數據,或者是當初用來抓數據的程式碼,好確認為何會跑出遺漏值。直接砍掉觀察值或者去偽造數據都不是正確的處理方法。

      「合併數據庫時要用哪個變數」的難度會因為它是數值還是字串而不同。如果是以CIK(Central Index Key,由SEC分配的美國公司代碼)那樣的數值為基準還好,問題在於如果兩個數據庫唯一的共通變數是公司名稱。有可能同一間公司在兩個數據庫之間有不同的寫法。這時候要怎樣合併就是個學問了。

        雖然蒐集數據的步驟很繁雜,但這是不容忽視的一步。一個人使用的統計方法再怎麼精良,如果一開始蒐集的數據就有問題,也不可能會跑出好結果。就像沒有一個會想知道全國男性平均身高的人,會只去大專院校的籃球校隊訪問隊員們的身高一樣。我想這也是為何任何一個實證(計量方法的文獻例外)的論文,一開始一定有很大一部份是在描述他們使用了什麼數據。有了數據以後接著才可以做統計分析。

        附帶一提,之所以會在小括號裡面附註「計量方法的文獻例外」,是因為計量方法雖然跟實證有關,但貢獻並非來自篳路藍縷以啟山林。計量方法的貢獻比較接近在我們已經發現的那片曠野地上面,建設一條能讓我們在無盡的黑暗中能走得順暢的道路。這個部份蒐集數據反而不會是問題,例如Serhiy Kozak的網站裡面有提供股權投資組合數據,Bryan Kelly的網站裡面則是有提供Working paper, “ Is There a Replication Crisis”” Global Factor Data”。主要的問題在於寫出來的方法到底有沒有經濟意涵,甚至是有沒有實用性。除了計量方法以外,財金的實證研究還有其他很多種類,也就是我接下來要談的理論研究:

[理論研究]

       理論研究的第一步是要把假設確定好雖然要求出均衡點、推導定理以及要把求解公式的過程聽起來不容易,但如果一開始假設就弄錯、公式就寫錯的話,那不管我們怎麼推導都會跑出很奇怪的結果。

       需要對哪些東西假設要看研究的課題。如果是商品訂價的研究題目,例如橫截面報酬(Cross-section of returns)、殖利率期限結構(Term structure)、衍生性商品訂價等等,首先當然就是要假設報酬率的隨機過程,然後要考慮是在實體測度還是風險中立測度訂價最後也要考慮是名目(Nominal)價格還是實體(Real)價格。然而如果研究課題不只是「商品訂價」本身,而是同時也要處理那些會影響商品報酬率的因素,再去看商品合理價格的話,那模型裡面就也得考慮其他因素。不久前提到的實體價格就是也得考慮通膨率的例子。而如果是要做殖利率期限結構的話,因為它跟景氣循環高度相關的緣故,訂價時也要能夠將景氣循環考慮進去。有了完整的假設以後我們就可以寫出相對應的訂價方程式

        模型的假設無非是我們希望模型裡面的元素應該要有什麼樣的行為。以上的「商品」所做的那堆假設就是一個例子。如果是要做總體經濟或者總體財務研究的課題的話,例如以下兩篇金融中介(Financial intermediation)與總體經濟、公司體系之間連結的論文:

我們可以在論文裡面看到一篇總體經濟理論文獻包含的元素不外乎公司(Firm, or sometimes production technology)跟家(Household),而近期考慮銀行體系的論文則是會加上金融中介機構(Financial intermediation)他們會有一些像是風險偏好之類的特徵並且在他們面對的限制(Constraint)各自都有希望能夠極大化/極小化的東西(Objective function)。公司不外乎要最大化利潤或者公司市值,家戶則是要透過消費/儲蓄來極大化效用函數。當我們能夠把他們的優化問題給寫成式子之後,接下來就是要推導一階條件(First-order condition)來推導整個經濟體系的均衡點了

        寫模型說穿了就是用數學來講伊索寓言。也正因為是一種科學化的「寓言」,它可以用元素來代表整體社會的組成構造,然後藉由述說那些元素的互動,來說明整體社會大概會怎樣運作。然而,模型絕對不是真實世界。很多理論文獻的論文到最後也會拿真實數據去驗證,但模型是根據實證結果去闡述一則故事,而不是真實世界去配合模型。Nassim Nicholas Taleb的書《黑天鵝語錄》,書名的原文 The Bed of Procrustes”就有點類似這個想法。書名原文是一則希臘神話,國王為了要讓他的床能配合訪客的身材,會不惜把訪客的手腳砍斷,或者強行將他們的身形拉長。他整本書的想法就在於用一系列格言的筆法闡述,現代社會的科技與各種制度就是那張床,我們就是國王的訪客。我的詮釋就是我們應該要真正知道自己要的是什麼(例如:到最後想做什麼樣的工作、想過什麼樣的人生)而不是去做社會要我們去做的事情。

        也正因為模型是一種故事,儘管我們看到的論文裡面的版本通常已經是模型最終的成品,也就是最廣義的情況,初步階段卻不建議直接跳到最廣義的層面。概念就是一開始先用最簡單的玩具模(Toy model)來實驗,看看如果只有2*2的矩陣會怎麼樣,等到2*2的矩陣沒問題之後,再延伸到n*n的矩陣 而各位只會在期刊論文裡看到論文作者經過一連串的嘗試以後寫出的n*n矩陣版本。寫程式去處理數據的概念也差不多,如果數據量很大,寫程式又遇到問題的話,先拿原始數據的其中一小部份來做實驗找出問題根源,等到問題處理完以後再回去弄整體數據。

沒有留言:

張貼留言

Inelastic Markets Hypothesis

         這篇文章來自於我上個禮拜參加 Western Finance Association (WFA) 研討會的心得 , 而今天要介紹的這篇論文是我在研討會前有細讀過的其中一篇 。原訂要在夏威夷舉辦的這場,跟去年一樣是採用線上研討會的模式。雖然少了一次可以趁著參加研討...