統計學是商學院的共同必修課,而每個上過統計學的人一定都會聽過一個好像沒有太直觀的名詞:自由度(Degree of Freedom)。自由度在統計學上的定義是可以自由變化的變數數量。以下的兩個情境能幫助大家快速理解這個概念:
- 情境1
- 小K身上有2000元,他想去必勝客外帶pizza套餐,假設依照規定他可以外帶4個
- 在這個預算之下,小K假設已經選了3個pizza,那麼他的第4個pizza一定就受到限制而無法自由挑選
- 在這個情境之下,小K能挑選pizza的自由度就是3個
- 情境2
- 小K參加某場模擬投資競賽獲得了獎金,想要請朋友吃必勝客大肆慶祝
- 所以他決定外帶4個pizza,並且決定無論多少他都會去付錢
- 在這個情境之下4個pizza就任君挑選,小K能挑選pizza的自由度就是4個
這些假設檢定涉及之機率分配,僅有常態分配並不會受到自由度的影響,而採用Z分配的檢定通常是要用來確定某群數據是否接近常態分配,或者是在能夠確定母體標準差的情況下檢驗某樣本是否有某項特性。但因為實際標準差通常也需要估計,而且有時候樣本數量沒辦法取得太多,因此統計實務運用上更常使用t分配去檢定。
t分配長得跟常態分配非常相近,只是會隨著自由度變化而受到影響。t分配的自由度選取要依據樣本的自由度,而這會影響到虛無假設能否被拒絕的範圍。此外,自由度對於t分配本身也會有影響,因為:
- 自由度=1,無法定義平均數(一階動差)
- 自由度=2,無法定義標準差(二階動差)
- 自由度=3,無法定義偏態(三階動差,用來量測機率分配往哪邊偏的傾向)
- 自由度=4,無法定義峰態(四階動差,用來量測機率分配有多高)
- 自由度=k,無法定義k階動差
不同自由度下的t分配機率密度函數(Probability Density Function, PDF)
統計學上也很常使用F分配檢定,而F分配就是t分配的平方。F檢定有兩個自由度,註記為F(d1,d2),F檢定通常用在虛無假設的限制式很多的情況下,尤其是在迴歸分析(Regression Analysis)或是變異數分析(Analysis of Variance, ANOVA,即檢測平均數是否相同,嗯,名字是會騙人的喔)時更是會很常接觸到F檢定。樣本數大小不同一樣會影響到F分配自由度的選取與虛無假設能拒絕的範圍。F檢定的自由度也同樣會影響到各階動差的存在:
- 自由度d2=1+1=2(t檢定的平方故自由度相加),無法定義平均數(一階動差)
- 自由度d2=2+2=4,無法定義標準差(二階動差)
- 自由度d2=3+3=6,無法定義偏態(三階動差)
- 自由度d2=4+4=8,無法定義峰態(四階動差)
不同自由度下的F分配機率密度函數
以上這兩種檢定方式在計量經濟學的實證分析上都很常用,但是有些時候也必須要確定某群數據與某個分配是否大致吻合,或者是需要確定在同一個母體下的兩個隨機變數是否獨立,這時候就會用到卡方分配檢定了。卡方分配檢定最後弄出來的統計量符合卡方分配,而這是一種無論自由度為何,各階動差都會存在,然而動差值會受到自由度影響的機率分配。
- 平均數(一階動差)=k(自由度)
- 變異數(二階動差)=2k
之所以要關切機率分配的各階動差是因為我們希望可以了解機率分配的集中與離散程度,也希望藉由機率分配來了解樣本的各種可能的特性。
不同自由度下卡方分配的機率密度函數
圖片來源:
[1] 學生t分布
[2] 台灣大學生物統計學程_F分布
[3] 卡方分布
沒有留言:
張貼留言