混合線性模型MEM，層級(jí)數(shù)據(jù)處理利器

對(duì)對(duì)子不錯(cuò) 2018-01-18

展開(kāi)全文

Multilevel models (also known as hierarchical linear models, nested data models, mixed models, random coefficient, random-effects models, random parameter models, or split-plot designs) are statistical models of parameters that vary at more than one level. An example could be a model of student performance that contains measures for individual students as well as measures for classrooms within which the students are grouped. These models can be seen as generalizations of linear models (in particular, linear regression), although they can also extend to non-linear models. These models became much more popular after sufficient computing power and software became availaible.

混合線性模型是20世紀(jì)80年代初針對(duì)統(tǒng)計(jì)資料的非獨(dú)立性而發(fā)展起來(lái)的。由于該模型的理論起源較多，根據(jù)所從事的領(lǐng)域、模型用途，又可稱為多水平模型(Multilevel，MLM)、隨機(jī)系數(shù)模型(Random Coefficients，RCM)、等級(jí)線性模型(Hierarchical Linear，HLM)等。甚至和廣義估計(jì)方程也有很大的交叉。這種模型充分考慮到數(shù)據(jù)聚集性的問(wèn)題，可以在數(shù)據(jù)存在聚集性的時(shí)候?qū)τ绊懸蛩剡M(jìn)行正確的估計(jì)和假設(shè)檢驗(yàn)。不僅如此，它還可以對(duì)變異的影響因素加以分析，即哪些因素導(dǎo)致了數(shù)據(jù)間聚集性的出現(xiàn)，哪些又會(huì)導(dǎo)致個(gè)體間變異增大。由于該模型成功地解決了長(zhǎng)期困擾統(tǒng)計(jì)學(xué)界的數(shù)據(jù)聚集性問(wèn)題，20年來(lái)已經(jīng)得到了飛速的發(fā)展，也成為SPSS等權(quán)威統(tǒng)計(jì)軟件的標(biāo)準(zhǔn)統(tǒng)計(jì)分析方法之一。

在傳統(tǒng)的線性模型(y=xb+e)中，除X與Y之間的線性關(guān)系外，對(duì)反應(yīng)變量Y還有三個(gè)假定：①正態(tài)性，即Y來(lái)自正態(tài)分布總體；②獨(dú)立性，Y的不同觀察值之間的相關(guān)系數(shù)為零；③方差齊性，各Y值的方差相等。但在實(shí)際研究中，經(jīng)常會(huì)遇到一些資料，它們并不能完全滿足上述三個(gè)條件。例如，當(dāng)Y為分類反應(yīng)變量時(shí)，如性別分為男、女，婚姻狀態(tài)為已婚、未婚，學(xué)生成績(jī)是及格、不及格等，不能滿足條件①。當(dāng)Y具有群體特性時(shí)，如在抽樣調(diào)查中，被調(diào)查者會(huì)來(lái)自不同的城市、不同的學(xué)校，這就形成一個(gè)層次結(jié)構(gòu)，高層為城市、中層為學(xué)校、低層為學(xué)生。顯然，同一城市或同一學(xué)校的學(xué)生各方面的特征應(yīng)當(dāng)更加相似。也就是基本的觀察單位聚集在更高層次的不同單位中，如同一城市的學(xué)生數(shù)據(jù)具有相關(guān)性，不能滿足條件②。當(dāng)自變量X具有隨機(jī)誤差時(shí)，這種誤差會(huì)傳遞給Y，使得Y不能滿足條件③。

如果對(duì)不滿足正態(tài)性、獨(dú)立性、方差齊性三個(gè)適用條件的資料采用傳統(tǒng)的分析方法，對(duì)所有樣本一視同仁，建立回歸方程，就會(huì)帶來(lái)如下問(wèn)題：

(1)參數(shù)估計(jì)值不再具有最小方差線性無(wú)偏性。

(2)會(huì)嚴(yán)重低估回歸系數(shù)的標(biāo)準(zhǔn)誤差。

(3)容易導(dǎo)致估計(jì)值過(guò)高，使常用的檢驗(yàn)失效，從而增加統(tǒng)計(jì)檢驗(yàn)I型錯(cuò)誤發(fā)生的概率。

如果我們對(duì)不同的群體分別建立各自的回歸模型，當(dāng)群體數(shù)較少，群體內(nèi)樣本容量較大，傳統(tǒng)的分析方法可能是有效的?；蛘?，我們的興趣僅在于對(duì)這些群體分別做一些統(tǒng)計(jì)推斷時(shí)，也適合用這種方法。但是如果我們把這些群體看成是從總體中抽樣來(lái)的一個(gè)樣本(例如多階段抽樣和重復(fù)測(cè)度數(shù)據(jù))，并想分析不同群體之間的總體差異，那么簡(jiǎn)單地使用傳統(tǒng)的統(tǒng)計(jì)方法是不夠的。同樣，如果一些群體包含的樣本容量較少，對(duì)這些群體做出的推斷也不可靠。因此，我們需要把這些群體看成是從總體抽樣來(lái)的樣本，并使用樣本總體的信息來(lái)進(jìn)行推斷。

方差分析(寫成英文我就認(rèn)識(shí)了。。analysis of variance (ANOVA) )主要有三種模型：即固定效應(yīng)模型（fixed effects model），隨機(jī)效應(yīng)模型（random effects model），混合效應(yīng)模型（mixed effects model）。

所謂的固定、隨機(jī)、混合，主要是針對(duì)分組變量而言的。

固定效應(yīng)模型，表示你打算比較的就是你現(xiàn)在選中的這幾組。例如，我想比較3種藥物的療效，我的目的就是為了比較這三種藥的差別，不想往外推廣。這三種藥不是從很多種藥中抽樣出來(lái)的，不想推廣到其他的藥物，結(jié)論僅限于這三種藥?！肮潭ā钡暮x正在于此，這三種藥是固定的，不是隨機(jī)選擇的。

隨機(jī)效應(yīng)模型，表示你打算比較的不僅是你的設(shè)計(jì)中的這幾組，而是想通過(guò)對(duì)這幾組的比較，推廣到他們所能代表的總體中去。例如，你想知道是否名牌大學(xué)的就業(yè)率高于普通大學(xué)，你選擇了北大、清華、北京工商大學(xué)、北京科技大學(xué)4所學(xué)校進(jìn)行比較，你的目的不是為了比較這4所學(xué)校之間的就業(yè)率差異，而是為了說(shuō)明他們所代表的名牌和普通大學(xué)之間的差異。你的結(jié)論不會(huì)僅限于這4所大學(xué)，而是要推廣到名牌和普通這樣的一個(gè)更廣泛的范圍?！半S機(jī)”的含義就在于此，這4所學(xué)校是從名牌和普通大學(xué)中隨機(jī)挑選出來(lái)的?；旌闲?yīng)模型就比較好理解了，就是既有固定的因素，也有隨機(jī)的因素。

一般來(lái)說(shuō)，只有固定效應(yīng)模型，才有必要進(jìn)行兩兩比較，隨機(jī)效應(yīng)模型沒(méi)有必要進(jìn)行兩兩比較，因?yàn)檠芯康哪康牟皇菫榱吮容^隨機(jī)選中的這些組別。

固定效應(yīng)和隨機(jī)效應(yīng)的選擇是大家做面板數(shù)據(jù)常常要遇到的問(wèn)題，一個(gè)常見(jiàn)的方法是做huasman檢驗(yàn)，即先估計(jì)一個(gè)隨機(jī)效應(yīng)，然后做檢驗(yàn)，如果拒絕零假設(shè)，則可以使用固定效應(yīng)，反之如果接受零假設(shè)，則使用隨機(jī)效應(yīng)。但這種方法往往得到事與愿違的結(jié)果。另一個(gè)想法是在建立模型前根據(jù)數(shù)據(jù)性質(zhì)確定使用那種模型，比如數(shù)據(jù)是從總體中抽樣得到的，則可以使用隨機(jī)效應(yīng)，比如從N個(gè)家庭中抽出了M個(gè)樣本，則由于存在隨機(jī)抽樣，則建議使用隨機(jī)效應(yīng)，反之如果數(shù)據(jù)是總體數(shù)據(jù)，比如31個(gè)省市的Gdp，則不存在隨機(jī)抽樣問(wèn)題，可以使用固定效應(yīng)。同時(shí)，從估計(jì)自由度角度看，由于固定效應(yīng)模型要估計(jì)每個(gè)截面的參數(shù)，因此隨機(jī)效應(yīng)比固定效應(yīng)有較大的自由度.

固定效應(yīng)模型
固定效應(yīng)模型（fixed effects model）的應(yīng)用前提是假定全部研究結(jié)果的方向與效應(yīng)大小基本相同，即各獨(dú)立研究的結(jié)果趨于一致，一致性檢驗(yàn)差異無(wú)顯著性。因此固定效應(yīng)模型適用于各獨(dú)立研究間無(wú)差異，或差異較小的研究。

固定效應(yīng)模型是指實(shí)驗(yàn)結(jié)果只想比較每一自變項(xiàng)之特定類目或類別間的差異及其與其他自變項(xiàng)之特定類目或類別間交互作用效果，而不想依此推論到同一自變項(xiàng)未包含在內(nèi)的其他類目或類別的實(shí)驗(yàn)設(shè)計(jì)。例如：研究者想知道教師的認(rèn)知類型在不同教學(xué)方法情境中，對(duì)兒童學(xué)習(xí)數(shù)學(xué)的效果有何不同，其中教師和學(xué)生的認(rèn)知類型，均指場(chǎng)地依賴型和場(chǎng)地獨(dú)立型，而不同的教學(xué)方法，則指啟發(fā)式、講演式、編序式。當(dāng)實(shí)驗(yàn)結(jié)束時(shí)，研究者僅就兩種類型間的交互作用效果及類型間的差異進(jìn)行說(shuō)明，而未推論到其他認(rèn)知類型，或第四種教學(xué)方法。象此種實(shí)驗(yàn)研究模式，即稱為固定效果模式。與本詞相對(duì)者是隨機(jī)效應(yīng)模型（random effect model）、混合效應(yīng)模型（mixed effect model）。

隨機(jī)效應(yīng)模型 random effects models

隨機(jī)效應(yīng)模型(random effects models)是經(jīng)典的線性模型的一種推廣，就是把原來(lái)（固定）的回歸系數(shù)看作是隨機(jī)變量，一般都是假設(shè)是來(lái)自正態(tài)分布。如果模型里一部分系數(shù)是隨機(jī)的，另外一些是固定的，一般就叫做混合模型（mixed models）。

雖然定義很簡(jiǎn)單，對(duì)線性混合模型的研究與應(yīng)用也已經(jīng)比較成熟了，但是如果從不同的側(cè)面來(lái)看，可以把很多的統(tǒng)計(jì)思想方法綜合聯(lián)系起來(lái)。概括地來(lái)說(shuō)，這個(gè)模型是頻率派和貝葉斯模型的結(jié)合，是經(jīng)典的參數(shù)統(tǒng)計(jì)到高維數(shù)據(jù)分析的先驅(qū)，是擬合具有一定相關(guān)結(jié)構(gòu)的觀測(cè)的典型工具。

隨機(jī)效應(yīng)最直觀的用處就是把固定效應(yīng)推廣到隨機(jī)效應(yīng)。注意，這時(shí)隨機(jī)效應(yīng)是一個(gè)群體概念，代表了一個(gè)分布的信息 or 特征，而對(duì)固定效應(yīng)而言，我們所做的推斷僅限于那幾個(gè)固定的（未知的）參數(shù)。例如，如果要研究一些水稻的品種是否與產(chǎn)量有影響，如果用于分析的品種是從一個(gè)很大的品種集合里隨機(jī)選取的，那么這時(shí)用隨機(jī)效應(yīng)模型分析就可以推斷所有品種構(gòu)成的整體的一些信息。這里，就體現(xiàn)了經(jīng)典的頻率派的思想-任何樣本都來(lái)源于一個(gè)無(wú)限的群體(population)。

同時(shí)，引入隨機(jī)效應(yīng)就可以使個(gè)體觀測(cè)之間就有一定的相關(guān)性，所以就可以用來(lái)擬合非獨(dú)立觀測(cè)的數(shù)據(jù)。經(jīng)典的就有重復(fù)觀測(cè)的數(shù)據(jù)，多時(shí)間點(diǎn)的記錄等等，很多時(shí)候就叫做縱向數(shù)據(jù)(longitudinal data)，已經(jīng)成為很大的一個(gè)統(tǒng)計(jì)分支。

混合效應(yīng)模型(Mixed Effect Model)可以輕松處理多種研究設(shè)計(jì)和數(shù)據(jù)類型，因而越來(lái)越多地被研究者采用進(jìn)行分析。它能夠處理的模型類型包括：固定效應(yīng)方差分析模型、完全隨機(jī)區(qū)組設(shè)計(jì)(Randornized Complete Blocks Design)、裂區(qū)設(shè)計(jì)(Split-Plot Design)、純隨機(jī)效應(yīng)模型(Purely Random Effects Model)、隨機(jī)系數(shù)模型(Random Coefficient Model)、多水平分析(Multilevel Analysis)、非條件線性生長(zhǎng)模型(Unconditional Linear Growth Model)、具有皮爾遜協(xié)變量的線性生長(zhǎng)模型(Linear Growth Model with a Person-Level Covariate)、重復(fù)測(cè)量分析、具有依時(shí)協(xié)變量的重復(fù)測(cè)量分析(Repeat Measures Analysis with Time-Dependent Covariates)。一句話，混合效應(yīng)模型非常強(qiáng)大。

混合效應(yīng)模型之所以那么“萬(wàn)能”，是因?yàn)樗涯Ｐ偷男?yīng)分解為固定效應(yīng)和隨機(jī)效應(yīng)，而隨機(jī)效應(yīng)可以解釋很多復(fù)雜的研究設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)。比如，在多水平研究設(shè)計(jì)中，隨機(jī)效應(yīng)就可以把多水平之間的嵌套關(guān)系進(jìn)行擬合；我們常見(jiàn)的重復(fù)測(cè)量數(shù)據(jù)，每個(gè)研究對(duì)象具有多次的測(cè)量值，其實(shí)也屬于兩水平的嵌套關(guān)系，所以隨機(jī)效應(yīng)也可以進(jìn)行擬合。

在眾多模型中，線性模型具有模型解釋的優(yōu)良性，所以最典型的混合效應(yīng)模型也就是線性混合效應(yīng)模型，為了讓模型適應(yīng)更多的數(shù)據(jù)類型(如：二分類的因變量等)，我們可以利用連接函數(shù)的特性將模型拓展為廣義線性混合效應(yīng)模型，關(guān)于連接函數(shù)的意義，大家可回復(fù)“廣義”查看微信文章《廣義可加模型》進(jìn)行參考學(xué)習(xí)。

下面針對(duì)重復(fù)測(cè)量數(shù)據(jù)，以SPSS實(shí)現(xiàn)線性混合效應(yīng)模型為例，介紹廣義線性混合效應(yīng)模型的“萬(wàn)能”應(yīng)用之一。

下圖展示的數(shù)據(jù)為16位患者的性別和體重，其中體重變量每人重復(fù)測(cè)量5次。

通過(guò)SPSS的菜單【Analyze】【Mixed Models】【Generalize Linear...】打開(kāi)廣義混合效應(yīng)模型的操作界面，首先是定義數(shù)據(jù)結(jié)構(gòu)(Data Structure)，把患者id拖到Subjects下面，把time拖到Repeated measures下面。

在Fields & Effects界面下，設(shè)置因變量和對(duì)應(yīng)的分布。本例選擇體重作為因變量，擬合線性模型。

在Fields & Effects界面下，設(shè)置固定效應(yīng)。本例設(shè)定的固定效應(yīng)包括截距、時(shí)間、性別。

在Fields & Effects界面下，設(shè)置隨機(jī)效應(yīng)。這里稍微有點(diǎn)復(fù)雜，需要通過(guò)【Add Block...】按鈕打開(kāi)隨機(jī)效應(yīng)設(shè)置界面。本例設(shè)定的隨機(jī)效應(yīng)為帶有截距項(xiàng)的時(shí)間嵌套在患者id下的結(jié)構(gòu)，協(xié)方差類型選擇方差成分。

其他界面的參數(shù)都采用默認(rèn)設(shè)置即可，點(diǎn)擊【Run】查看結(jié)果。

首先是模型的擬合指標(biāo)，AIC=392.608、BIC=407.039、-2LLR=376.911。

然后是固定效應(yīng)，這是我們主要看的結(jié)果，可以看出時(shí)間和性別都具有統(tǒng)計(jì)學(xué)意義，從時(shí)間各個(gè)啞變量的系數(shù)(逐漸變小)可以看出，體重隨著時(shí)間逐漸下降。男性(gender=0)的系數(shù)為正，說(shuō)明男性比女性的體重大。

接著看隨機(jī)效應(yīng)的結(jié)果，隨機(jī)效應(yīng)是否具有統(tǒng)計(jì)學(xué)意義不是我們關(guān)注的重點(diǎn)，因?yàn)檫@是研究設(shè)計(jì)的特點(diǎn)要求我們必須考慮的。截距的協(xié)方差具有統(tǒng)計(jì)學(xué)意義，說(shuō)明每個(gè)患者間的體重存在著個(gè)體差異，且具有統(tǒng)計(jì)學(xué)意義。時(shí)間的協(xié)方差無(wú)統(tǒng)計(jì)學(xué)意義，說(shuō)明每個(gè)患者體重變化的趨勢(shì)類似，差異無(wú)統(tǒng)計(jì)學(xué)意義。

最后我們通過(guò)圖形來(lái)直觀理解因變量在各自變量間的分布，跟上面固定效應(yīng)的結(jié)果一致。

到此，廣義線性混合效應(yīng)模型對(duì)重復(fù)測(cè)量數(shù)據(jù)進(jìn)行分析的例子已經(jīng)介紹完畢。大家可通過(guò)調(diào)整數(shù)據(jù)結(jié)構(gòu)界面的設(shè)置，輕松應(yīng)用到其他復(fù)雜的模型，特別是多水平的模型中。

還有一個(gè)值得強(qiáng)調(diào)的地方，就是混合效應(yīng)模型在設(shè)置隨機(jī)效應(yīng)的時(shí)候需要我們定義隨機(jī)效應(yīng)的協(xié)方差類型，在本例中我們選用了方差成分(Variance component)，另外還有First-order autoregressive (AR1)、Autoregressive moving average (1,1) (ARMA11)、Compound symmetry、Diagonal、Scaled identity、Toeplitz、Unstructured等類型可供選擇。我們可以根據(jù)專業(yè)知識(shí)來(lái)進(jìn)行選擇，也可以嘗試不同的協(xié)方差類型，通過(guò)比較模型的AIC和BIC來(lái)選取較優(yōu)的類型。

寫在后面：各位圈友，咱們的計(jì)量經(jīng)濟(jì)圈社群里面資料和計(jì)量咨詢都很多，希望大家能夠積極加入咱們這個(gè)大家庭（戳這里）。之后我們會(huì)逐步邀請(qǐng)社群里的圈友再直接建立微信群與圈圈對(duì)話，進(jìn)去之后一定要看“群公告”，不然接收不了群信息。

提議

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：對(duì)對(duì)子不錯(cuò) > 《其他統(tǒng)計(jì)方法學(xué)習(xí)》

舉報(bào)/認(rèn)領(lǐng)