第1講 實驗性研究定量數(shù)據(jù)統(tǒng)計策略(1): 正態(tài)性檢驗與判斷 數(shù)據(jù)分析時需要執(zhí)行的關(guān)鍵步驟之一是判斷數(shù)據(jù)的正態(tài)性(Normality)。
統(tǒng)計分析拿到數(shù)據(jù)后,首先,研究者找到研究的目標(biāo)變量,特別是主要結(jié)局指標(biāo)(Primary outcome)。接著,評價結(jié)局指標(biāo)是何種類型的(定量還是定性或者等級)。如果是定量數(shù)據(jù),正態(tài)性則是接下來需要研判的內(nèi)容了。數(shù)據(jù)可根據(jù)變量的屬性分為正態(tài)分布數(shù)據(jù)和偏態(tài)分布數(shù)據(jù)。此外,在實際分析中,我們往往會將數(shù)據(jù)其分為正態(tài)分布數(shù)據(jù)、近似正態(tài)分布數(shù)據(jù)和嚴(yán)重偏態(tài)分布數(shù)據(jù)。非正態(tài)分布數(shù)據(jù)(偏態(tài)分布)
正態(tài)分布還是非正態(tài)分布的研判非常重要。統(tǒng)計分析時,如果變量值呈正態(tài)分布,統(tǒng)計描述采用均數(shù)±標(biāo)準(zhǔn)差,假設(shè)檢驗可采用t檢驗、F檢驗;如果變量值呈偏態(tài)分布,則要采用中位數(shù)(四分位數(shù)間距)[M(IQR),或M(P25,P75)], 假設(shè)檢驗方法上,非參數(shù)檢驗更合適。 將出生28天的20只大鼠隨機分成兩組,分別飼以高蛋白和低蛋白飼料,8周后觀察其體重(g)。問兩種不同飼料組別的大鼠體重正態(tài)性情況如何?數(shù)據(jù)見數(shù)據(jù)庫weight.sav.
高蛋白組:133,145,112,138,99,157,126,121,139,106,115低蛋白組:118,75,106,87,94,110,102,124,130本案例由幾個變量組成?研究的關(guān)鍵變量是什么?是什么類型的數(shù)據(jù)?本案例包括2個變量,一個是大鼠體重(g),另外一個是分組變量(高蛋白組和低蛋白組)。主要研究的結(jié)局指標(biāo)是大鼠體重,定量數(shù)據(jù)。 數(shù)據(jù)的正態(tài)性問題,可從兩個層面來探討。第一個層面是所有大鼠體重值放在一起的整體正態(tài)性,另外一個層面是高蛋白組和低蛋白組兩組數(shù)據(jù)各自正態(tài)性。前者我稱為單樣本正態(tài)性,后者為兩樣本正態(tài)性。 正態(tài)性檢驗界面:分析—描述統(tǒng)計—探索 
① 因變量列表(dependent variable):這一選框選入檢驗變量、或者結(jié)局變量(是希望去探討的目標(biāo)變量) ② 圖:見下圖: 
① 莖葉圖和直方圖,兩者都√上。特別是直方圖,可以直觀地看出數(shù)據(jù)的分布形態(tài)。 ② 含檢驗的正態(tài)圖:這一選項即進行正態(tài)性檢驗。 SPSS提供兩種正態(tài)性檢驗結(jié)果,分別是柯爾莫戈洛夫-斯米諾夫(Kolmogorow-Smironov,KS)檢驗,另外一個是夏皮洛-威爾克(Shapiro-wilk,SW)。中文翻譯起來非常別扭,建議用英文和縮寫區(qū)別二者。二者結(jié)果均有統(tǒng)計量(statistic),df(自由度),顯著性(sig., P值)。 劃重點:一般小樣本(2000以下)選擇SW的方法,本例亦是如此。事實上,可能大部分研究正態(tài)性檢驗選擇SW檢驗方法。正態(tài)性檢驗最重要的是看“顯著性”。關(guān)于“顯著性”,我這里要強調(diào)幾句!第一,這是我們?nèi)n程第一次出現(xiàn)“顯著性”字樣,英文為significance,縮寫sig.。第二,顯著性的值即為P值。P值是統(tǒng)計分析最重要的結(jié)果之一。第三,如果P值<0.05,不能敘述為“具有顯著性意義”,而是“具有統(tǒng)計學(xué)意義”。本例P值=1.000,>0.05,沒有統(tǒng)計學(xué)意義。什么意思?P值是關(guān)于H0的論證。本例H0是“該樣本所在的總體為正態(tài)分布”。P值是在H0成立的情況下,得到本樣本以及更極端樣本的概率。這話說起來拗口,一種通俗(雖不嚴(yán)謹(jǐn))理解是,P值代表H0成立的可能性。P=1.000,代表“該樣本所在總體是正態(tài)分布的可能性為100%”,表明,該樣本總體分布特征與正態(tài)分布的差異沒有統(tǒng)計學(xué)意義(P>0.05)。因此,本例結(jié)論是,P=1.000>0.05,差異沒有統(tǒng)計學(xué)意義,還不能說明該樣本的總體分布是偏態(tài)分布,可以認為該體重正態(tài)性是符合的。此外,直方圖能夠較直觀判斷數(shù)據(jù)分布特征??梢钥闯?,體重大致屬于中間多兩邊少的正態(tài)分布。 多樣本正態(tài)性與單樣本正態(tài)性檢驗相似,但“探索”界面稍有不同。① 因子列表(Factor variable):這一選框選入分組變量、或者原因變量。本研究分組變量為group(飼料類型),可以分為2組。 ② 圖:見單樣本正態(tài)性檢驗,此處略 經(jīng)SW檢驗,結(jié)果為:高蛋白組體重P=0.977,低蛋白組體重P=0.974,沒有統(tǒng)計學(xué)意義,兩組數(shù)據(jù)正態(tài)性均符合。 
以上為規(guī)規(guī)矩矩的正態(tài)性檢驗過程,看明白了嗎?正態(tài)性檢驗,特別是SW檢驗,是統(tǒng)計分析基礎(chǔ)的工作,任何時候拿到定量數(shù)據(jù),第一反應(yīng)應(yīng)是考慮數(shù)據(jù)的分布,進行探索性的分析,看是否符合正態(tài)性。 不過,值得注意的是,正態(tài)性檢驗雖然嚴(yán)謹(jǐn),實際應(yīng)用上,可能并不是作為數(shù)據(jù)正態(tài)性判斷的唯一依據(jù)。特別是較大樣本時,P<0.05的正態(tài)性檢驗結(jié)果并不能認為就是偏態(tài)分布而采用非參數(shù)檢驗的方法。經(jīng)常有同學(xué)問“我的數(shù)據(jù)正態(tài)性檢驗P<0.05,就不能用均數(shù)和標(biāo)準(zhǔn)差描述,不能用t檢驗和F檢驗了嗎”。其實,也沒有不那么絕對。實際統(tǒng)計策略方面,諸位可以將數(shù)據(jù)分布分為三類:正態(tài)分布、近似正態(tài)分布數(shù)據(jù)和嚴(yán)重偏態(tài)分布數(shù)據(jù)。第2類:正態(tài)分布不符合,P<0.05,但直方圖還是呈現(xiàn)大致的中間多兩邊少,無嚴(yán)重極端值;第3類:正態(tài)分布不符合,P<0.05,數(shù)據(jù)嚴(yán)重偏態(tài),或者存在明顯極端異常值 第1類(左)和第2類(右)數(shù)據(jù)的正態(tài)曲線圖 第3類數(shù)據(jù)的正態(tài)圖:存在嚴(yán)重極端值(左)、嚴(yán)重偏態(tài)分布(右)一般情況下,前兩類仍然可以用均數(shù)及標(biāo)準(zhǔn)差描述,用t檢驗和F檢驗進行統(tǒng)計推斷,后者須用非參數(shù)檢驗。此外,判斷數(shù)據(jù)正態(tài)性的另外一種主觀性的思路是,直接看數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差大小。如果一組正態(tài)分布的數(shù)據(jù)觀察值全部是正值,一般來說,均數(shù)要遠遠大于標(biāo)準(zhǔn)差。總結(jié)來說,判斷數(shù)據(jù)正態(tài)性,需要結(jié)合直方圖和正態(tài)性檢驗,將數(shù)據(jù)分布分為三大類,在此基礎(chǔ)上分別選擇不同的統(tǒng)計方法進行統(tǒng)計描述和統(tǒng)計推斷。  帶字幕去水印的視頻可復(fù)制以下地址瀏覽器打開https://evod./category.html?stationID=1&resourceMode=1&resourceAttr=1&categoryId=183
|