
1、關(guān)于正態(tài)性檢驗(yàn)的問題 正態(tài)性檢驗(yàn)是統(tǒng)計(jì)學(xué)分析中非?;A(chǔ)的一個(gè)問題,但也很關(guān)鍵,它牽扯到你應(yīng)該使用什么樣的方法,數(shù)據(jù)是否滿足正態(tài)性決定了你是否應(yīng)采用參數(shù)方法還是非參數(shù)方法。所謂正態(tài)性檢驗(yàn),也就是看你的數(shù)據(jù)是不是滿足正態(tài)分布,也就是說,如果把你的數(shù)據(jù)做個(gè)頻數(shù)圖,是不是看起來像個(gè)鐘形。 正態(tài)性檢驗(yàn)最簡單的就是直接畫頻數(shù)圖,看形狀是不是類似于對(duì)稱的鐘形形狀,如果有明顯的數(shù)據(jù)都集中在某一邊,那圖形看起來就會(huì)偏向一側(cè),這可能意味著你的數(shù)據(jù)不滿足正態(tài)性,可以考慮用非參數(shù)方法來分析。 正態(tài)性檢驗(yàn)常用的有四種方法,即Shapiro-Wilk檢驗(yàn)、Kolmogorov-Smirnov檢驗(yàn)、Cramer-von Mises檢驗(yàn)和Anderson-Darling檢驗(yàn)。這是SAS軟件中輸出的四種檢驗(yàn)。 Shapiro-Wilk檢驗(yàn)是專門用于正態(tài)性檢驗(yàn)的方法,其思想是基于峰度和偏度來考慮偏離正態(tài)的程度,該法可用于例數(shù)在3至50之間。但后來經(jīng)Royston改進(jìn)后,可用于例數(shù)在3至2000之間的正態(tài)性檢驗(yàn)。因此,有的統(tǒng)計(jì)書上還在強(qiáng)調(diào)說SAS中的Shapiro-Wilk檢驗(yàn)只能用于50例以下的數(shù)據(jù),實(shí)際上是不對(duì)的,作者沒有仔細(xì)看一下方法的進(jìn)展。SAS中輸出的Shapiro-Wilk檢驗(yàn)是可以用在2000例以內(nèi)數(shù)據(jù)的檢驗(yàn)的。 其余三種方法是通用方法,可用于多種分布的擬合優(yōu)度檢驗(yàn),正態(tài)性檢驗(yàn)只是其中之一。其思想都是基于理論分布函數(shù)與實(shí)際分布函數(shù)的差距,當(dāng)假定理論分布函數(shù)是正態(tài)分布時(shí),便是正態(tài)性檢驗(yàn)。當(dāng)假定理論分布為其它分布(如Poisson分布)時(shí),便成了其它分布的擬合優(yōu)度檢驗(yàn)。 所以說,Shapiro-Wilk檢驗(yàn)是專門檢驗(yàn)正態(tài)分布的,其它三種方法是順便檢驗(yàn)的。就像諾基亞是專做手機(jī)的,而聯(lián)想只是業(yè)余做手機(jī)的,也做其它的,手機(jī)只是其中之一。 正常情況下,如果例數(shù)在2000以內(nèi),Shapiro-Wilk檢驗(yàn)可作為首選的結(jié)果,該法具有較好的檢驗(yàn)效能。 對(duì)于圖形驗(yàn)證和方法檢驗(yàn),個(gè)人傾向于圖形方法,因?yàn)榉椒ǖ臋z驗(yàn)過于敏感,略微偏離正態(tài)便會(huì)給出陽性結(jié)果,認(rèn)為數(shù)據(jù)不滿足正態(tài)分布。而實(shí)際中數(shù)據(jù)的輕度偏離不會(huì)對(duì)結(jié)果造成多大影響,尤其樣本量較大的時(shí)候,仍然可以采用參數(shù)檢驗(yàn),其結(jié)果是穩(wěn)健的。因此,如有可能,可以既作檢驗(yàn),也繪制圖形,兩者結(jié)合來判斷,不一定非要以檢驗(yàn)的結(jié)果為準(zhǔn)。
2、關(guān)于方差分析兩兩比較方法的選擇 進(jìn)行方差分析時(shí),如果多組間比較認(rèn)為總的有統(tǒng)計(jì)學(xué)差異,通常還可進(jìn)一步做組間多重比較。 多重比較的方法比較多,這里主要介紹sas軟件中常用的方法,主要有Tukey法、Scheffe法、Bonferroni法、Dunnett法等。 Tukey法只能用于組間例數(shù)相同的情形,而且只能用于成對(duì)的兩兩比較。 Scheffe法可用于組間例數(shù)不等的情形,不僅可用于成對(duì)的兩兩比較,而且還可以用于綜合比較,如組2、3的均值與組1進(jìn)行比較。 Bonferroni用途最廣,幾乎可用于任何多重比較的情形,包括組間例數(shù)相等或不等、成對(duì)兩兩比較或綜合多重比較等。 Dunnett法主要用于多個(gè)實(shí)驗(yàn)組與一個(gè)對(duì)照組的比較,實(shí)驗(yàn)組之間不做比較。 如果各組間例數(shù)相等,Tukey法效率較高,這也是國外不少統(tǒng)計(jì)學(xué)家喜歡用的方法。但在國內(nèi)tukey法始終不流行,甚至很少有人知道他的名字,不知道為什么。國內(nèi)最流行的方法是Bonferroni法,我想可能是因?yàn)檫@一方法理解和計(jì)算最簡單吧。但不管怎樣,該法應(yīng)用也沒什么大錯(cuò),只要比較次數(shù)不多,用起來還是蠻有用的。 如果比較次數(shù)太多,比如10次甚至更多,用Bonferroni法就有問題了,臨界p值會(huì)變得特別小,你可能會(huì)發(fā)現(xiàn)總的組間有差異,但兩兩比較卻都達(dá)不到臨界值,因?yàn)楸容^次數(shù)太多,導(dǎo)致p值太小,無法拒絕h0。所以此時(shí)可以考慮用Scheffe法。Scheffe法在國內(nèi)也不流行,同樣不知道為什么。也行是因?yàn)榻滩纳喜淮蠼榻B吧,可見國內(nèi)學(xué)生深受教材毒害之深。好像教材上介紹的才是權(quán)威,其實(shí)不然,教材上介紹的不一定是最好的,而是最不容易犯錯(cuò)誤的,也就是說,不求有功,但求無過。 不同書中對(duì)如何選擇比較方法各有觀點(diǎn),因?yàn)榇_實(shí)沒有一種方法能完全壓倒所有的,所以必然存在爭議。所以最好的做法就是自己仔細(xì)看一下這些方法的原理,這樣在選擇時(shí)就有底了,也就有依據(jù)了。
3、關(guān)于方差齊性檢驗(yàn) 方差齊性檢驗(yàn)與正態(tài)性檢驗(yàn)一樣,也是決定你采用何種統(tǒng)計(jì)分析方法的一個(gè)重要條件。 當(dāng)兩組數(shù)據(jù)做組間比較時(shí),如果兩組數(shù)據(jù)符合正態(tài)分布但方差不齊,可以考慮用Cochran近似t檢驗(yàn)或Satterthwaite近似t檢驗(yàn),這兩種近似t檢驗(yàn)分別通過對(duì)臨界值或自由度的調(diào)整實(shí)現(xiàn)對(duì)t檢驗(yàn)結(jié)果的校正。 當(dāng)多組數(shù)據(jù)做組間比較時(shí),如果數(shù)據(jù)為正態(tài)分布但方差不齊,有時(shí)也采用Welch檢驗(yàn)。但通常情況下,即使方差不齊,只要不是很嚴(yán)重,仍可采用方差分析。只有在方差齊性偏離較大時(shí)才用該法或用非參數(shù)檢驗(yàn)。 兩組比較時(shí),方差齊性檢驗(yàn)常采用F檢驗(yàn),其思想是以兩組中較大的方差除以較小的方差,其值越大,越有理由認(rèn)為方差不齊。 多組比較時(shí),常用的有四種方差齊性檢驗(yàn),分別為Bartlett檢驗(yàn)、Levene檢驗(yàn)、BF檢驗(yàn)和O’Brien’s檢驗(yàn)。 Bartlett法主要用于正態(tài)數(shù)據(jù)的檢驗(yàn),一旦數(shù)據(jù)偏離正態(tài),結(jié)果會(huì)導(dǎo)致較大偏差。 Levene法可用于非正態(tài)數(shù)據(jù)的檢驗(yàn),反映了對(duì)均值的偏離程度。 O’Brien’s法是對(duì)Levene法的修正方法,也是基于對(duì)均值的偏離程度。 BF法是基于對(duì)中位數(shù)的偏離程度。 統(tǒng)計(jì)模擬顯示,BF法對(duì)控制一類錯(cuò)誤的效能較高,但組別較多時(shí)可能不是很合適。實(shí)際中最常用的是Levene法。
4、兩組連續(xù)型資料的分析思路 兩組連續(xù)型資料的分析,可以簡單分為以下兩種: (1) 兩組獨(dú)立樣本比較 資料符合正態(tài)分布,且兩組方差齊性,直接采用t檢驗(yàn)。 資料不符合正態(tài)分布,(1)可進(jìn)行數(shù)據(jù)轉(zhuǎn)換,如對(duì)數(shù)轉(zhuǎn)換等,使之服從正態(tài)分布,然后對(duì)轉(zhuǎn)換后的數(shù)據(jù)采用t檢驗(yàn);(2)采用非參數(shù)檢驗(yàn),如Wilcoxon檢驗(yàn)。 資料符合正態(tài)分布單方差不齊,(1)采用Satterthwate 的t’檢驗(yàn);(2)采用非參數(shù)檢驗(yàn),如Wilcoxon檢驗(yàn)。 (2) 兩組配對(duì)樣本的比較 兩組差值服從正態(tài)分布,采用配對(duì)t檢驗(yàn)。 兩組差值不服從正態(tài)分布,采用wilcoxon的符號(hào)配對(duì)秩和檢驗(yàn)。 以上是常用的資料分析的思路,但是實(shí)際中可能不止如此簡單,比如實(shí)際中可能還需要看一下數(shù)據(jù)是否獨(dú)立,如果不是獨(dú)立的,還需要進(jìn)一步考慮他們之間的相關(guān)性。 所謂獨(dú)立性,其實(shí)理解也很簡單。最常見的非獨(dú)立數(shù)據(jù)就是同一觀察對(duì)象不同時(shí)間點(diǎn)的數(shù)據(jù)。比如,一個(gè)人用藥前后的觀察值,由于是一個(gè)人的數(shù)據(jù),很可能就會(huì)存在相關(guān)性,即非獨(dú)立,比如,張三用藥前的血壓高,那用藥后的血壓可能也高,李四用藥前的血壓低,用藥后可能也較低。而不同人的觀察值,沒有什么相關(guān)性,就是獨(dú)立的,比如,張三的血壓不會(huì)影響李四的血壓。
5、多組連續(xù)資料的分析思路
(1).多組完全隨機(jī)樣本比較 資料符合正態(tài)分布,且各組方差齊性,直接采用完全隨機(jī)的方差分析。如果檢驗(yàn)結(jié)果為有統(tǒng)計(jì)學(xué)意義,則進(jìn)一步作兩兩比較,兩兩比較的方法有LSD檢驗(yàn),Bonferroni法,tukey法,Scheffe法,SNK法等。 資料不符合正態(tài)分布,或各組方差不齊,則采用非參數(shù)檢驗(yàn)的Kruscal-Wallis法。如果檢驗(yàn)結(jié)果為有統(tǒng)計(jì)學(xué)意義,則進(jìn)一步作兩兩比較,一般采用Bonferroni法校正P值。 (2) 多組隨機(jī)區(qū)組樣本比較 資料符合正態(tài)分布,且各組方差齊性,直接采用隨機(jī)區(qū)組的方差分析。如果檢驗(yàn)結(jié)果為有統(tǒng)計(jì)學(xué)意義,則進(jìn)一步作兩兩比較,兩兩比較的方法有LSD檢驗(yàn),Bonferroni法,tukey法,Scheffe法,SNK法等。 資料不符合正態(tài)分布,或各組方差不齊,則采用非參數(shù)檢驗(yàn)的Friedman檢驗(yàn)法。如果檢驗(yàn)結(jié)果為有統(tǒng)計(jì)學(xué)意義,則進(jìn)一步作兩兩比較,一般采用Bonferroni法校正P值。
注:來源于“52stata博客”。
|