中心極限定理

hercules028 2022-06-17 發(fā)布于四川

展開全文

樣本均值分布

信用卡是銀行對個人資質(zhì)進行審核后發(fā)放給個人的透支卡。A 銀行所有信用卡客戶的收入分布情況如圖 8-6 所示，該圖中的數(shù)據(jù)曲線以中位數(shù)和均值為基準(zhǔn)，明顯右偏，稱為右偏分布。

信用卡客戶的收入大部分集中在 7000 元左右，均值向左的一側(cè)數(shù)據(jù)線條較短，是因為銀行通常會拒絕低收入者的申請；均值向右的一側(cè)數(shù)據(jù)線條較長且呈下降趨勢，是因為隨著收入的增高，用戶對信用卡的依賴性會越來越低，同時，高收入者的數(shù)量占總體比例更小。

可是，這并不代表高收入人群不需要信用卡，月入 10 萬元的人可能喜歡高端信用卡帶來的尊貴感。每個銀行發(fā)放信用卡的策略不同，如果有個銀行特別喜歡發(fā)行高端信用卡，對于月收入 1 萬元以下的客戶審核非常嚴(yán)格，導(dǎo)致很少能通過申請，那么曲線應(yīng)該是左偏的。

圖 8-6 A 銀行信用卡用戶月平均收入水平分布

假設(shè)以 A 銀行的全部信用卡用戶為總體進行隨機抽樣，抽取 1000 個用戶，計算得到樣本均值 7100，樣本中位數(shù) 8800，如圖 8-7 所示。

圖 8-7　從 A 銀行信用卡用戶中隨機抽樣得到的樣本分布

從圖 8-7 可見樣本分布和總體分布的形狀很相似，均值的變化幅度很小。由于每次抽樣都有差別，如果多次抽樣，每次抽樣都是 1000 個用戶，每次的分布都是既相似又不同，如圖 8-8 所示。

圖 8-8　多次抽樣后不同樣本的分布及均值

將圖 8-8 中所有的實心圓點對應(yīng)的值（樣本均值）取出來，可以得到一個均值列表，該列表中有 6 個均值，如果次數(shù)足夠多，抽取 m 次，那么就可以得到一個由 m 個值組成的樣本均值列表，如圖 8-9 所示。

圖 8-9 m 次抽樣得到的樣本均值列表

統(tǒng)計學(xué)家證明，如果 m 的次數(shù)足夠大，由 m 個均值得到的分布是一個正態(tài)分布。

由此可以得到中心極限定理：對于任意給定的分布，每次抽取 n 個樣本，一共抽取 m 次，對 m 組樣本數(shù)據(jù)分別求出均值，m 個均值的分布呈正態(tài)分布。

從 A 銀行的例子中可以看到，總體的分布可以是任意分布（可以不是正態(tài)分布），這不影響樣本均值的分布是正態(tài)分布。但是中心極限定理是否能發(fā)揮作用，極度依賴于樣本量 n的大小。

假設(shè)樣本量 n 分別為 2、3、10、30，并分別做出樣本均值分布圖，如圖 8-10 所示。隨著樣本數(shù) n的增大，樣本均值分布曲線越來越接近正態(tài)分布。

中心極限定理的標(biāo)準(zhǔn)定義：

對一個均值為 μ 、標(biāo)準(zhǔn)差為δ的總體抽取樣本量為 n 的隨機樣本，x 是樣本平均數(shù)。

? 當(dāng)抽樣次數(shù) n 足夠大時，樣本均值的抽樣分布接近正態(tài)分布。經(jīng)驗認(rèn)為，n ≥ 30 時樣本量足夠大。

圖 8-10　樣本均值分布曲線隨著 n 的變化而變化

樣本均值的抽樣分布的均值等于 μ 。

樣本均值抽樣分布的標(biāo)準(zhǔn)差是 / n ?？傮w的方差是δ 2，樣本均值的方差就是δ 2/n，將方差開方即得到標(biāo)準(zhǔn)差為 / n 。

樣本均值分布的標(biāo)準(zhǔn)差也稱為抽樣誤差。

表8-1標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤差的區(qū)別

術(shù)語	主體	表達式
標(biāo)準(zhǔn)差	總體分布	6
標(biāo)準(zhǔn)誤差	樣本均值分布	6 /n

樣本分為大樣本和小樣本，通常認(rèn)為樣本量 n ≥ 30 時是大樣本，n ＜ 30 時是小樣本。這是統(tǒng)計學(xué)的經(jīng)驗說法。在更復(fù)雜的計量經(jīng)濟學(xué)中，有時成百上千的樣本量也算不上大樣本，所以大小樣本要看實際情況而定。

中心極限定理的應(yīng)用

某銀行服務(wù)商同時為多家銀行服務(wù)，假設(shè)出現(xiàn)信息泄露事件，導(dǎo)致一萬名銀行信用卡客戶的收入數(shù)據(jù)外泄。最初并不知道這些數(shù)據(jù)屬于哪一家銀行，所以每一個銀行都在驗證是否是自家客戶，A 銀行也是其中之一。

由于數(shù)據(jù)已經(jīng)泄露，A 銀行也可以拿到這批數(shù)據(jù)，所以 A 銀行第一時間確定了該數(shù)據(jù)樣本量，這批數(shù)據(jù)的客戶數(shù)量是 10 000，客戶收入均值是 12 800。A 銀行同時也知道自己客戶的收入均值為 7000，標(biāo)準(zhǔn)差為 1600。如果給 A 銀行的所有客戶進行樣本量為 10 000 的隨機抽樣，樣本均值抽樣分布的均值是 7000，標(biāo)準(zhǔn)誤差是 1600/ 10 000 =16。

假設(shè)這批客戶是 A 銀行的，那么其均值應(yīng)該服從 A 銀行的樣本均值抽樣分布，如圖 8-11 所示。

圖 8-11 A 銀行樣本均值抽樣分布

樣本均值的分布近似于正態(tài)分布，那么它也具備正態(tài)分布的所有特征，同樣也適用 68-95-99.7 法則（請參閱 7.4.2 節(jié)）。從圖 8-11 中可以看到，從均值向右 3 個標(biāo)準(zhǔn)誤差的值是 7048，均值向左 3 個標(biāo)準(zhǔn)誤差的值是 6952，均值在 7048和 6952 之間的概率是 99.7%，而這批數(shù)據(jù)的均值是 12 800，大于 7048，也就是說這批數(shù)據(jù)是 A 銀行流出的可能性幾乎為零。

中心極限定理是統(tǒng)計推斷的基礎(chǔ)，統(tǒng)計推斷又是統(tǒng)計學(xué)的核心內(nèi)容，只有真正理解了中心極限定理，才能靈活運用各種假設(shè)檢驗。