Multilevel models (also known as hierarchical linear models, nested data models, mixed models, random coefficient, random-effects models, random parameter models, or split-plot designs) are statistical models of parameters that vary at more than one level. An example could be a model of student performance that contains measures for individual students as well as measures for classrooms within which the students are grouped. These models can be seen as generalizations of linear models (in particular, linear regression), although they can also extend to non-linear models. These models became much more popular after sufficient computing power and software became availaible. 混合線性模型是20世紀(jì)80年代初針對(duì)統(tǒng)計(jì)資料的非獨(dú)立性而發(fā)展起來(lái)的。由于該模型的理論起源較多,根據(jù)所從事的領(lǐng)域、模型用途,又可稱為多水平模型(Multilevel,MLM)、隨機(jī)系數(shù)模型(Random Coefficients,RCM)、等級(jí)線性模型(Hierarchical Linear,HLM)等。甚至和廣義估計(jì)方程也有很大的交叉。這種模型充分考慮到數(shù)據(jù)聚集性的問(wèn)題,可以在數(shù)據(jù)存在聚集性的時(shí)候?qū)τ绊懸蛩剡M(jìn)行正確的估計(jì)和假設(shè)檢驗(yàn)。不僅如此,它還可以對(duì)變異的影響因素加以分析,即哪些因素導(dǎo)致了數(shù)據(jù)間聚集性的出現(xiàn),哪些又會(huì)導(dǎo)致個(gè)體間變異增大。由于該模型成功地解決了長(zhǎng)期困擾統(tǒng)計(jì)學(xué)界的數(shù)據(jù)聚集性問(wèn)題,20年來(lái)已經(jīng)得到了飛速的發(fā)展,也成為SPSS等權(quán)威統(tǒng)計(jì)軟件的標(biāo)準(zhǔn)統(tǒng)計(jì)分析方法之一 。 在傳統(tǒng)的線性模型(y=xb+e)中,除X與Y之間的線性關(guān)系外,對(duì)反應(yīng)變量Y還有三個(gè)假定:①正態(tài)性,即Y來(lái)自正態(tài)分布總體;②獨(dú)立性,Y的不同觀察值之間的相關(guān)系數(shù)為零;③方差齊性,各Y值的方差相等。但在實(shí)際研究中,經(jīng)常會(huì)遇到一些資料,它們并不能完全滿足上述三個(gè)條件。例如,當(dāng)Y為分類反應(yīng)變量時(shí),如性別分為男、女,婚姻狀態(tài)為已婚、未婚,學(xué)生成績(jī)是及格、不及格等,不能滿足條件①。當(dāng)Y具有群體特性時(shí),如在抽樣調(diào)查中,被調(diào)查者會(huì)來(lái)自不同的城市、不同的學(xué)校,這就形成一個(gè)層次結(jié)構(gòu),高層為城市、中層為學(xué)校、低層為學(xué)生。顯然,同一城市或同一學(xué)校的學(xué)生各方面的特征應(yīng)當(dāng)更加相似。也就是基本的觀察單位聚集在更高層次的不同單位中,如同一城市的學(xué)生數(shù)據(jù)具有相關(guān)性,不能滿足條件②。當(dāng)自變量X具有隨機(jī)誤差時(shí),這種誤差會(huì)傳遞給Y,使得Y不能滿足條件③。 如果對(duì)不滿足正態(tài)性、獨(dú)立性、方差齊性三個(gè)適用條件的資料采用傳統(tǒng)的分析方法,對(duì)所有樣本一視同仁,建立回歸方程,就會(huì)帶來(lái)如下問(wèn)題: (1)參數(shù)估計(jì)值不再具有最小方差線性無(wú)偏性。 (2)會(huì)嚴(yán)重低估回歸系數(shù)的標(biāo)準(zhǔn)誤差。 (3)容易導(dǎo)致估計(jì)值過(guò)高,使常用的檢驗(yàn)失效,從而增加統(tǒng)計(jì)檢驗(yàn)I型錯(cuò)誤發(fā)生的概率。 如果我們對(duì)不同的群體分別建立各自的回歸模型,當(dāng)群體數(shù)較少,群體內(nèi)樣本容量較大,傳統(tǒng)的分析方法可能是有效的?;蛘?,我們的興趣僅在于對(duì)這些群體分別做一些統(tǒng)計(jì)推斷時(shí),也適合用這種方法。但是如果我們把這些群體看成是從總體中抽樣來(lái)的一個(gè)樣本(例如多階段抽樣和重復(fù)測(cè)度數(shù)據(jù)),并想分析不同群體之間的總體差異,那么簡(jiǎn)單地使用傳統(tǒng)的統(tǒng)計(jì)方法是不夠的。同樣,如果一些群體包含的樣本容量較少,對(duì)這些群體做出的推斷也不可靠。因此,我們需要把這些群體看成是從總體抽樣來(lái)的樣本,并使用樣本總體的信息來(lái)進(jìn)行推斷。 方差分析(寫成英文我就認(rèn)識(shí)了。。analysis of variance (ANOVA) )主要有三種模型:即固定效應(yīng)模型(fixed effects model),隨機(jī)效應(yīng)模型(random effects model),混合效應(yīng)模型(mixed effects model)。
雖然定義很簡(jiǎn)單,對(duì)線性混合模型的研究與應(yīng)用也已經(jīng)比較成熟了,但是如果從不同的側(cè)面來(lái)看,可以把很多的統(tǒng)計(jì)思想方法綜合聯(lián)系起來(lái)。概括地來(lái)說(shuō),這個(gè)模型是頻率派和貝葉斯模型的結(jié)合,是經(jīng)典的參數(shù)統(tǒng)計(jì)到高維數(shù)據(jù)分析的先驅(qū),是擬合具有一定相關(guān)結(jié)構(gòu)的觀測(cè)的典型工具。
混合效應(yīng)模型(Mixed Effect Model)可以輕松處理多種研究設(shè)計(jì)和數(shù)據(jù)類型,因而越來(lái)越多地被研究者采用進(jìn)行分析。它能夠處理的模型類型包括:固定效應(yīng)方差分析模型、完全隨機(jī)區(qū)組設(shè)計(jì)(Randornized Complete Blocks Design)、裂區(qū)設(shè)計(jì)(Split-Plot Design)、純隨機(jī)效應(yīng)模型(Purely Random Effects Model)、隨機(jī)系數(shù)模型(Random Coefficient Model)、多水平分析(Multilevel Analysis)、非條件線性生長(zhǎng)模型(Unconditional Linear Growth Model)、具有皮爾遜協(xié)變量的線性生長(zhǎng)模型(Linear Growth Model with a Person-Level Covariate)、重復(fù)測(cè)量分析、具有依時(shí)協(xié)變量的重復(fù)測(cè)量分析(Repeat Measures Analysis with Time-Dependent Covariates)。一句話,混合效應(yīng)模型非常強(qiáng)大。 混合效應(yīng)模型之所以那么“萬(wàn)能”,是因?yàn)樗涯P偷男?yīng)分解為固定效應(yīng)和隨機(jī)效應(yīng),而隨機(jī)效應(yīng)可以解釋很多復(fù)雜的研究設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)。比如,在多水平研究設(shè)計(jì)中,隨機(jī)效應(yīng)就可以把多水平之間的嵌套關(guān)系進(jìn)行擬合;我們常見(jiàn)的重復(fù)測(cè)量數(shù)據(jù),每個(gè)研究對(duì)象具有多次的測(cè)量值,其實(shí)也屬于兩水平的嵌套關(guān)系,所以隨機(jī)效應(yīng)也可以進(jìn)行擬合。 在眾多模型中,線性模型具有模型解釋的優(yōu)良性,所以最典型的混合效應(yīng)模型也就是線性混合效應(yīng)模型,為了讓模型適應(yīng)更多的數(shù)據(jù)類型(如:二分類的因變量等),我們可以利用連接函數(shù)的特性將模型拓展為廣義線性混合效應(yīng)模型,關(guān)于連接函數(shù)的意義,大家可回復(fù)“廣義”查看微信文章《廣義可加模型》進(jìn)行參考學(xué)習(xí)。 下面針對(duì)重復(fù)測(cè)量數(shù)據(jù),以SPSS實(shí)現(xiàn)線性混合效應(yīng)模型為例,介紹廣義線性混合效應(yīng)模型的“萬(wàn)能”應(yīng)用之一。 下圖展示的數(shù)據(jù)為16位患者的性別和體重,其中體重變量每人重復(fù)測(cè)量5次。 通過(guò)SPSS的菜單【Analyze】【Mixed Models】【Generalize Linear...】打開(kāi)廣義混合效應(yīng)模型的操作界面,首先是定義數(shù)據(jù)結(jié)構(gòu)(Data Structure),把患者id拖到Subjects下面,把time拖到Repeated measures下面。 在Fields & Effects界面下,設(shè)置因變量和對(duì)應(yīng)的分布。本例選擇體重作為因變量,擬合線性模型。 在Fields & Effects界面下,設(shè)置固定效應(yīng)。本例設(shè)定的固定效應(yīng)包括截距、時(shí)間、性別。 在Fields & Effects界面下,設(shè)置隨機(jī)效應(yīng)。這里稍微有點(diǎn)復(fù)雜,需要通過(guò)【Add Block...】按鈕打開(kāi)隨機(jī)效應(yīng)設(shè)置界面。本例設(shè)定的隨機(jī)效應(yīng)為帶有截距項(xiàng)的時(shí)間嵌套在患者id下的結(jié)構(gòu),協(xié)方差類型選擇方差成分。 其他界面的參數(shù)都采用默認(rèn)設(shè)置即可,點(diǎn)擊【Run】查看結(jié)果。 首先是模型的擬合指標(biāo),AIC=392.608、BIC=407.039、-2LLR=376.911。 然后是固定效應(yīng),這是我們主要看的結(jié)果,可以看出時(shí)間和性別都具有統(tǒng)計(jì)學(xué)意義,從時(shí)間各個(gè)啞變量的系數(shù)(逐漸變小)可以看出,體重隨著時(shí)間逐漸下降。男性(gender=0)的系數(shù)為正,說(shuō)明男性比女性的體重大。 接著看隨機(jī)效應(yīng)的結(jié)果,隨機(jī)效應(yīng)是否具有統(tǒng)計(jì)學(xué)意義不是我們關(guān)注的重點(diǎn),因?yàn)檫@是研究設(shè)計(jì)的特點(diǎn)要求我們必須考慮的。截距的協(xié)方差具有統(tǒng)計(jì)學(xué)意義,說(shuō)明每個(gè)患者間的體重存在著個(gè)體差異,且具有統(tǒng)計(jì)學(xué)意義。時(shí)間的協(xié)方差無(wú)統(tǒng)計(jì)學(xué)意義,說(shuō)明每個(gè)患者體重變化的趨勢(shì)類似,差異無(wú)統(tǒng)計(jì)學(xué)意義。 最后我們通過(guò)圖形來(lái)直觀理解因變量在各自變量間的分布,跟上面固定效應(yīng)的結(jié)果一致。 到此,廣義線性混合效應(yīng)模型對(duì)重復(fù)測(cè)量數(shù)據(jù)進(jìn)行分析的例子已經(jīng)介紹完畢。大家可通過(guò)調(diào)整數(shù)據(jù)結(jié)構(gòu)界面的設(shè)置,輕松應(yīng)用到其他復(fù)雜的模型,特別是多水平的模型中。 還有一個(gè)值得強(qiáng)調(diào)的地方,就是混合效應(yīng)模型在設(shè)置隨機(jī)效應(yīng)的時(shí)候需要我們定義隨機(jī)效應(yīng)的協(xié)方差類型,在本例中我們選用了方差成分(Variance component),另外還有First-order autoregressive (AR1)、Autoregressive moving average (1,1) (ARMA11)、Compound symmetry、Diagonal、Scaled identity、Toeplitz、Unstructured等類型可供選擇。我們可以根據(jù)專業(yè)知識(shí)來(lái)進(jìn)行選擇,也可以嘗試不同的協(xié)方差類型,通過(guò)比較模型的AIC和BIC來(lái)選取較優(yōu)的類型。 寫在后面:各位圈友,咱們的計(jì)量經(jīng)濟(jì)圈社群里面資料和計(jì)量咨詢都很多,希望大家能夠積極加入咱們這個(gè)大家庭(戳這里)。之后我們會(huì)逐步邀請(qǐng)社群里的圈友再直接建立微信群與圈圈對(duì)話,進(jìn)去之后一定要看“群公告”,不然接收不了群信息。 提議 |
|