分類資料的組間比較非常簡單,不像定量資料那樣,還得看正態(tài)性、方差齊性這么煩人的過程。唯一需要看的就是結(jié)局是什么樣子。所以,如果說定量資料你能用錯,你還可以說,你不會做正態(tài)性檢驗(yàn)、不會方差齊性檢驗(yàn)。那么如果分類資料的組間比較你用錯的,真的沒有什么理由可以找,所以你真的沒有任何犯錯的理由。 分類資料就是那些可以劃分類別的數(shù)據(jù),兩類和多類均可,只不過需要注意一下多類別的時候可能是有序的,也可能是無序的。無序的就是沒有什么等級高低順序,就像血型,沒有什么理由認(rèn)為A比B要高一等或低一等。有序就是能看出一種天然的順序,就像療效,無效、顯效、痊愈,給人感覺痊愈就是比顯效高一等。 有一種情形要注意,不是看到率或百分比就要認(rèn)為是分類資料,就要用卡方檢驗(yàn)的。有的率是作為連續(xù)資料來分析的。比如脂肪百分比,雖然也是個比例,但你沒法用卡方檢驗(yàn)。因?yàn)檫@個百分比是每個人都有一個這樣的數(shù)值,你能做的是把每個人的百分比作為一個定量資料,然后進(jìn)行組間比較。以前就有人真的這么問過我說:這不是比例嗎?比例不是都得用卡方嗎?我想這種觀念很可能是老師在教學(xué)的時候習(xí)慣把比例和率跟卡方聯(lián)系起來,事實(shí)上未必,其實(shí)用“分類資料”這樣的字眼更好一些。分類資料的比例,說的是一定的數(shù)量占所有人的百分比,具體到每個人來說,他只有0或1這樣的數(shù)值(多分類也可能是0、1、2等),計算的比例是0或1占的比例。而剛才這種情形是每個人都有一個具體的不同數(shù)值,這是完全不同的。 對于分類資料的組間比較,可以通過下面這樣一張圖來選擇方法: 從這個圖不難看出,分類資料的組間比較只需要注意三點(diǎn)就可以: (1)設(shè)計類型。這個你自己是很清楚的。大多數(shù)情況下,可能我們做的都是基于完全隨機(jī)設(shè)計的。對于沒有設(shè)計的,如比較男女之間的發(fā)病率,男女分組不是隨機(jī)設(shè)計的,那也采用完全隨機(jī)設(shè)計的方法來分析。 (2)組別數(shù),從小學(xué)一年級就應(yīng)該能數(shù)的很清楚了。 (3)重要的是結(jié)局的類型,是二分類還是多分類,多分類是有序的還是無序的。 從圖中不難看出,最重要的是你的結(jié)局的類型,對于完全隨機(jī)設(shè)計,只要你的結(jié)局是二分類和無序多分類,不管是比較2組還是多組,都可以毫不猶豫地選擇卡方檢驗(yàn)。但如果是有序多分類,那就需要根據(jù)是2組還是多組,選擇相應(yīng)的方法。 其實(shí),對于定量資料的組間比較和分類資料的組間比較,我想表達(dá)的并不僅僅是畫兩幅圖讓大家照著來找分析方法,更重要的是,學(xué)會一種分析思路。如果看一下統(tǒng)計學(xué)教材,不難看出教材的特點(diǎn),大都是以不同方法作為章節(jié)區(qū)分的依據(jù),比如第二章講t檢驗(yàn),第三章講卡方檢驗(yàn),等等。作為教材的編纂,這無可厚非,但作為老師講課,卻不一定非要嚴(yán)格按照這種方式來講。 為什么國內(nèi)好多學(xué)生,學(xué)了1年的統(tǒng)計,真正碰到數(shù)據(jù)的時候,卻總是束手無策,甚至連最基本的分析思路都不知道,空學(xué)了一肚子的t檢驗(yàn)和卡方檢驗(yàn),卻不知道從哪兒下手。我想,也許是因?yàn)榻滩牡慕淌诜绞礁覀儗?shí)際分析的思路恰好相反。實(shí)際分析數(shù)據(jù)時,你收集了一批數(shù)據(jù),然后需要根據(jù)數(shù)據(jù)的類型、特征、分布等選擇恰當(dāng)?shù)姆椒?;而教材中,是把各種方法割裂開,講各種方法的使用條件。 那么,當(dāng)你面對一堆數(shù)據(jù)的時候,你是把你腦子中的各種方法逐一來匹配一下嗎?每個方法都來試試,看看哪個符合應(yīng)用條件?還是根據(jù)數(shù)據(jù)類型、特征來選擇合適的方法呢?我想可能根據(jù)數(shù)據(jù)的條件來選擇方法更加自然一些,這是一種分析思路。而用方法來套數(shù)據(jù)這不是分析思路。也許,這就是為什么你學(xué)了這么久統(tǒng)計,卻始終還不了解分析思路的原因。 所以,其實(shí)對于定量資料和分類資料的這2張圖,更重要的是學(xué)會分析思路,不要用方法去套數(shù)據(jù),而要根據(jù)數(shù)據(jù)來選方法。久而久之,才會形成自己的分析體系。 |
|