翻譯來源The t-distribution: a key statistical concept discovered by a beer brewery 這篇博文會介紹兩種你在數(shù)據(jù)科學(xué), 統(tǒng)計學(xué), 機(jī)器學(xué)習(xí)領(lǐng)域中幾乎每次都會遇到的概率分布。 高斯分布(正態(tài)分布/常態(tài)分布)想象我們在進(jìn)行一項關(guān)于城市人口身高的研究。 我們走街串巷隨機(jī)測量了一堆人的身高(其中有一些人認(rèn)為這太奇怪了,想要叫警察, 但是這是為了科學(xué), 別鬧了)。 現(xiàn)在我們決定, 進(jìn)行一些探索性數(shù)據(jù)分析(Exploratory Data Analysis ) 。 但是我們手頭恰好沒有數(shù)據(jù)分析軟件(例如 R),所以我們就簡單的做一個身高分布直方圖。
 我們看到了什么? 啊哈, 著名的鐘型曲線。 這可能是你遇到過的最為重要的概率分布。 感謝中心極限定理(Central limit theorem), 高斯分布在很多現(xiàn)實世界中的很多現(xiàn)象中都存在。高斯分布過于常見, 以致于人們直接干脆稱之為常態(tài)分布/正態(tài)分布(Normal Distribution) 中心極限定理闡明了, 足夠多的隨機(jī)變量求和后的平均數(shù)是符合正態(tài)分布的。 那些隨機(jī)變量自身可以遵循任意的概率分布, 只要我們在衡量某種由這些隨機(jī)變量求和結(jié)果所表示的量時(只要樣本量足夠大), 我們最終都會得到正態(tài)分布。 高斯分布的概率密度函數(shù)如下: KaTeX parse error: No such environment: equation at position 8: \begin{?e?q?u?a?t?i?o?n?}?f(x|\mu,\sigma… 這個公式可能看上去有些嚇人, 但是它在數(shù)學(xué)運(yùn)算上非常便捷。 如果你感興趣它是如何推到出來的, 你可以閱讀這里。 正如你所看到的, 這個分布有兩個參數(shù) - μμμ 平均數(shù)(mean)
- σσσ 標(biāo)準(zhǔn)差(standard deviation)
平均數(shù) μμμ 控制著期望值(大部分值所要去的地方)。 方差 σ2σ2σ2 控制著這個分布中, 取值的范圍分布情況或者說分散程度。 正態(tài)分布的概念在機(jī)器學(xué)習(xí)中有極大的價值。 各種各樣的機(jī)器學(xué)習(xí)算法都會用到: - 線性模型假設(shè)誤差是正態(tài)分布的
- 高斯過程假設(shè)模型下一個函數(shù)值的所有值都是正態(tài)分布的
- 高斯混合使你可以對復(fù)雜的分布進(jìn)行建模, 基于混合模型構(gòu)建分類器
- 正態(tài)分布是變分自動編碼器的一個重要組件
一個學(xué)生的 t 分布
如果我們想要用高斯分布對我們的數(shù)據(jù)進(jìn)行建模, 但是并不知道方差 σ2σ2σ2 怎么辦 ? 這個問題在樣本量比較小, 以致于我們無法準(zhǔn)確估計標(biāo)準(zhǔn)差(σσσ) 的時候會出現(xiàn)。
(譯者補(bǔ)充開始): - 為什么樣本量較小的時候, 標(biāo)準(zhǔn)差會無法準(zhǔn)確估計呢? 此處可以延伸閱讀一下貝塞爾糾偏(Bessel’s Correction)
- 直觀舉例來看:
- 假設(shè)我們有一個數(shù)據(jù)總體的平均值是 $2050 $, 但是統(tǒng)計學(xué)家并不知道這件事, 他只能根據(jù)抽樣的樣本來估計總體的均值。 現(xiàn)在假設(shè)他獲得的樣本較少, 為 : 2051,2053,2055,2050,20512051,2053,2055,2050,20512051,2053,2055,2050,2051
- 可以算得樣本的均值為: 205220522052
- 這個可以作為我們對總體均值的一個估計, 現(xiàn)在我們面臨的問題是, 需要進(jìn)一步估計樣本的方差。 假如我們知道樣本真實的均值是 205020502050 , 那么根據(jù)方差計算公式, 我們進(jìn)行如下計算
- 15[(2051?2050)2+(2053?2050)2+(2055?2050)2+(2050?2050)2+(2051?2050)2]=7.215[(2051?2050)2+(2053?2050)2+(2055?2050)2+(2050?2050)2+(2051?2050)2]=7.251?[(2051?2050)2+(2053?2050)2+(2055?2050)2+(2050?2050)2+(2051?2050)2]=7.2
- 假如我們使用估計的均值進(jìn)行如下計算
- 15[(2051?2052)2+(2053?2052)2+(2055?2052)2+(2050?2052)2+(2051?2052)2]=3.215[(2051?2052)2+(2053?2052)2+(2055?2052)2+(2050?2052)2+(2051?2052)2]=3.251?[(2051?2052)2+(2053?2052)2+(2055?2052)2+(2050?2052)2+(2051?2052)2]=3.2
- 可以看到使用估計均值計算出的方差,比使用實際均值計算出的方差明顯地小了很多, 這個偏差已經(jīng)明顯到不可忽略。 現(xiàn)在就會自然產(chǎn)生一個疑問, 是不是用樣本均值計算出來的方差始終(無論樣本均值小于或是大于總體實際均值)比用總體均值計算出來的方差要??? 答案是肯定的, 原因可以通過一個簡單的數(shù)學(xué)恒等式證明:
- $ (a + b)2=a2 + 2ab + b^2 $, 其中 aaa 表示樣本值與總體均值的偏差, bbb 表示樣本均值與總體均值的偏差, 注意: a+ba+ba+b 所表示的即是樣本值與總體均值的偏差。 通過如下的例子可以更清晰的理解:
  - 從上述的計算中就可以看到, 如果用總體實際均值計算方差, 其結(jié)果應(yīng)該是
- a2+b2na2+b2nna2+b2?,
- 很明顯是大于等于使用估計均值計算出來的方差
- a2na2nna2?,
(譯者補(bǔ)充結(jié)束)
William Gosset 在一個吉尼斯黑啤酒釀酒廠工作時, 找到了解決樣本量較小時, 總體方差未知導(dǎo)致無法用高斯分布建模數(shù)據(jù)問題的方法。 首先我們假設(shè)有值 x1,...,xnx1,...,xnx1?,...,xn? , 這些值是從一個正態(tài)分布N(μ,σ2)N(μ,σ2)N(μ,σ2) 的總體中抽樣獲得的 我們并不知道真正的方差, 但是我們可以通過樣本均值和樣本方差來估計: ˉx=1n∑ni=1xixˉ=1n∑ni=1xixˉ=n1?i=1∑n?xi? s2=1n?1∑ni=1(xi?ˉx)2s2=n?11?i=1∑n?(xi??xˉ)2 - 譯者注: 上面的 s2s2 計算時, 分母為 n?1n?1 而非 nn 的原因就是為了糾正使用樣本均值算出的方差總比實際方差小的問題。
現(xiàn)在我們構(gòu)建一個隨機(jī)變量: t=ˉx?μs/√nt=s/n?xˉ?μ? 就會呈現(xiàn)一個 自由度為 n?1n?1的 T分布, 其中 nn 是樣本的數(shù)量。 - 譯者注:
- 統(tǒng)計學(xué)中自由度的定義是 一次計算中, 可以自由變化的變量個數(shù)。 更多信息建議參考 Wiki 定義。 上面這個隨機(jī)變量 T 其實是由 x1,...,xnx1?,...,xn? 決定的, 因為每次抽樣,x1,...,xnx1?,...,xn? 都是會隨機(jī)變動的, 所以 t 這個值也就成了一個隨機(jī)變量, 注意到公式中$ n,\mu$ 其實都是是固定的參數(shù),$ \bar{x} $和 s 都是依賴 x1,...,xnx1?,...,xn? 計算出來的。
- 那么這里自然有一個問題是為什么自由度是 n?1n?1 而不是 nn, 因為這個計算中, 應(yīng)該有 n 個變量可以自由變化啊
- 原因是T值的計算公式中使用了 ss , ss 的計算過程中依賴(xi?ˉx)(xi??xˉ) 的值, 而這就產(chǎn)生了一個隱藏的限制, ∑ni=1(xi?x)=0∑i=1n?(xi??x)=0 。 所以這使得一旦前 n-1個(xi?ˉx)(xi??xˉ) 確定后, 第 n 個(xi?ˉx)(xi??xˉ) 立馬被鎖定。 自由度因此變成了n?1n?1
這個公式可能和正態(tài)分布到標(biāo)準(zhǔn)正態(tài)分布的變形很類似: ˉx?μσ/√nσ/n?xˉ?μ?
(譯者補(bǔ)充開始): 標(biāo)準(zhǔn)正太分布是以0為均數(shù)、以1為標(biāo)準(zhǔn)差的正態(tài)分布,記為N(0,1)N(0,1), 標(biāo)準(zhǔn)正態(tài)分布曲線下面積分布規(guī)律是:在-1.96~+1.96范圍內(nèi)曲線下的面積等于0.9500,在-2.58~+2.58范圍內(nèi)曲線下面積為0.9900。如下圖
 給定一個遵循正態(tài)分布的隨機(jī)變量 $ X \sim N(\mu,\sigma,隨機(jī)變量,隨機(jī)變量Z=\frac{X-\mu}{\sigma}$ 則符合標(biāo)準(zhǔn)正態(tài)分布。 這個轉(zhuǎn)換過程也被稱為 $\mu $ 變換 應(yīng)用舉例, 假設(shè)已知一個正態(tài)分布 $ X \sim N(20,5)$, 想要求得在該分布中, X 取到大于30的概率, 即可計算 Z=X?μσ=30?205=2Z=σX?μ?=530?20?=2, 得到 $P(X>30)= P(Z>2) $ , 查標(biāo)準(zhǔn)正態(tài)分布表可得結(jié)果$ P(Z>2)=2.28%$ 在正態(tài)分布總體中以固定的個數(shù) nn 多次抽取樣本時,多個樣本集的均數(shù) ˉXXˉ的分布仍服從正態(tài)分布N(μ,σ)N(μ,σ)。所以,對樣本均數(shù)的分布進(jìn)行**μμ變換**,也可變換為標(biāo)準(zhǔn)正態(tài)分布$N (0,1)
(譯者補(bǔ)充結(jié)束)
我們并不知道真正的總體方差,所以在嘗試對樣本均值進(jìn)行**μμ變換** 時, 只能用樣本估計出的方差 ss 替換實際方差 μμ, 導(dǎo)致最終得到的結(jié)果是 t 分布。 t 分布奠定了一個名為 t 檢驗 的科學(xué)方法的基礎(chǔ)。 該方法曾被吉尼斯黑啤酒釀酒廠用于檢驗啤酒質(zhì)量。 由于啤酒廠擔(dān)心競爭者可能會由此發(fā)現(xiàn) T檢驗的方法, 所以 William Gosset 只能將這個發(fā)現(xiàn)以筆名 “學(xué)生” 發(fā)布, 使得 t-分布也被廣泛稱為學(xué)生分布。 Gosset 的發(fā)現(xiàn)后來被著名的統(tǒng)計學(xué)家 Ronald Fisher (他被認(rèn)為是頻率論方法的作者)正規(guī)化描述。 
如上圖所示, 當(dāng)自由度(v = n-1)從小變大的過程中, t-分布逐漸逼近為標(biāo)準(zhǔn)正態(tài)分布 。 這是因為當(dāng)抽樣的數(shù)量越多, 我們計算出的樣本均值就越接近總體的實際均值。 t-分布和標(biāo)準(zhǔn)正態(tài)分布相比更為“肥大的尾巴” 補(bǔ)償了我們進(jìn)行小樣本量抽樣時的不確定性。 感興趣的讀者可能會問, “t-分布的概率密度函數(shù)是什么? 我們?nèi)绾瓮茖?dǎo)出它?”。 這個推導(dǎo)在數(shù)學(xué)角度來講并不容易, 但是推導(dǎo)的核心思想我們可以很容易掌握。 假設(shè)我們希望的得到正態(tài)分布變量 X~N(0,σ)X~N(0,σ) 的概率密度函數(shù), 但是不能依賴標(biāo)準(zhǔn)差 σσ。 直覺上, 如果我們想避免使用 σσ , 就需要作出某種假設(shè), 讓我們把 σσ 當(dāng)做一個隨機(jī)變量, 假設(shè)它遵循伽馬分布(Gamma-Distribution, 這是一個在貝葉斯統(tǒng)計中廣泛使用的分布 )。 然后我們可以猜測, 變量 X 是兩個連續(xù)概率分布的混合: 正態(tài)分布和伽馬分布, 我們對涉及到 σσ 的部分進(jìn)行積分, 提取出來, 就可以得到 t-分布的概率密度函數(shù)。 如果想看正式的證明過程, 可以看這里和這里 結(jié)論高斯分布和學(xué)生分布是統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)中最為重要的連續(xù)概率分布的一部分。 t-分布可以用作總體方差未知, 或樣本集較小時高斯分布的占位符。 這兩種分布有著非常嚴(yán)格和正式的關(guān)聯(lián)關(guān)系。
|