將圖 8-8 中所有的實心圓點對應(yīng)的值(樣本均值)取出來,可以得到一個均值列表,該列表中有 6 個均值,如果次數(shù)足夠多,抽取 m 次,那么就可以得到一個由 m 個值組成的樣本均值列表,如圖 8-9 所示。
圖 8-9 m 次抽樣得到的樣本均值列表
統(tǒng)計學(xué)家證明,如果 m 的次數(shù)足夠大,由 m 個均值得到的分布是一個正態(tài)分布。由此可以得到中心極限定理:對于任意給定的分布,每次抽取 n 個樣本,一共抽取 m 次,對 m 組樣本數(shù)據(jù)分別求出均值,m 個均值的分布呈正態(tài)分布。從 A 銀行的例子中可以看到,總體的分布可以是任意分布(可以不是正態(tài)分布),這不影響樣本均值的分布是正態(tài)分布。但是中心極限定理是否能發(fā)揮作用,極度依賴于樣本量 n的大小。假設(shè)樣本量 n 分別為 2、3、10、30,并分別做出樣本均值分布圖,如圖 8-10 所示。隨著樣本數(shù) n的增大,樣本均值分布曲線越來越接近正態(tài)分布。中心極限定理的標(biāo)準(zhǔn)定義:對一個均值為 μ 、標(biāo)準(zhǔn)差為δ的總體抽取樣本量為 n 的隨機樣本,x 是樣本平均數(shù)。? 當(dāng)抽樣次數(shù) n 足夠大時,樣本均值的抽樣分布接近正態(tài)分布。經(jīng)驗認(rèn)為,n ≥ 30 時樣本量足夠大。
圖 8-10 樣本均值分布曲線隨著 n 的變化而變化
樣本均值的抽樣分布的均值等于 μ 。樣本均值抽樣分布的標(biāo)準(zhǔn)差是 / n ??傮w的方差是δ 2,樣本均值的方差就是δ 2/n,將方差開方即得到標(biāo)準(zhǔn)差為 / n 。樣本均值分布的標(biāo)準(zhǔn)差也稱為抽樣誤差。表8-1標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤差的區(qū)別
術(shù)語
主體
表達式
標(biāo)準(zhǔn)差
總體分布
6
標(biāo)準(zhǔn)誤差
樣本均值分布
6 /n
樣本分為大樣本和小樣本,通常認(rèn)為樣本量 n ≥ 30 時是大樣本,n < 30 時是小樣本。這是統(tǒng)計學(xué)的經(jīng)驗說法。在更復(fù)雜的計量經(jīng)濟學(xué)中,有時成百上千的樣本量也算不上大樣本,所以大小樣本要看實際情況而定。 中心極限定理的應(yīng)用某銀行服務(wù)商同時為多家銀行服務(wù),假設(shè)出現(xiàn)信息泄露事件,導(dǎo)致一萬名銀行信用卡客戶的收入數(shù)據(jù)外泄。最初并不知道這些數(shù)據(jù)屬于哪一家銀行,所以每一個銀行都在驗證是否是自家客戶,A 銀行也是其中之一。由于數(shù)據(jù)已經(jīng)泄露,A 銀行也可以拿到這批數(shù)據(jù),所以 A 銀行第一時間確定了該數(shù)據(jù)樣本量,這批數(shù)據(jù)的客戶數(shù)量是 10 000,客戶收入均值是 12 800。A 銀行同時也知道自己客戶的收入均值為 7000,標(biāo)準(zhǔn)差為 1600。如果給 A 銀行的所有客戶進行樣本量為 10 000 的隨機抽樣,樣本均值抽樣分布的均值是 7000,標(biāo)準(zhǔn)誤差是 1600/ 10 000 =16。假設(shè)這批客戶是 A 銀行的,那么其均值應(yīng)該服從 A 銀行的樣本均值抽樣分布,如圖 8-11 所示。