日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

胡安寧:傾向值匹配與因果推論:方法論述評(píng)

 張春強(qiáng)2022 2019-07-12

來(lái)源:胡安寧. 傾向值匹配與因果推論:方法論述評(píng)[J]. 社會(huì)學(xué)研究, 2012(1):221-242

 1 傾向值匹配: 歷史、發(fā)展及其對(duì)調(diào)查研究的意義


傾向值( propensity score) 這一概念最早出現(xiàn)在1983 年羅森鮑姆和魯賓合寫(xiě)的一篇名為《傾向值對(duì)于觀察研究中因果效應(yīng)的中心作用》 的論文中( Rosenbaum & Rubin, 1983) 。傾向值指被研究的個(gè)體在控制 可觀測(cè)到的混淆變量( confounding variables) 的情況下受到某種自變量 影響的條件概率。在一般的實(shí)證研究中,由于存在很多其他變量混淆 自變量和因變量之間的關(guān)系,研究者很難直接探索二者之間的“凈效 果” ( net effects) 。例如,大學(xué)教育的收入回報(bào)可能受到年齡、性別以及地區(qū)差異這些混淆變量的影響。因此,上大學(xué)的人的平均收入與沒(méi)有上大學(xué)的人的平均收入的差異有可能也反映了混淆變量的作用。這些混淆變量的影響通常被稱為選擇性誤差( selection bias) ,而通過(guò)傾向值 匹配的方式來(lái)控制和消除選擇性誤差則是羅森鮑姆和魯賓論文的題中之義。羅森鮑姆和魯賓用數(shù)理方法證明: 通過(guò)將這些混淆變量納入Logistic 回歸模型來(lái)產(chǎn)生一個(gè)預(yù)測(cè)個(gè)體受到自變量影響的概率( 傾向 值) ,研究者可以通過(guò)控制傾向值來(lái)遏制選擇性誤差對(duì)研究結(jié)論的影 響從而保證因果結(jié)論的可靠性。

在各種控制傾向值的方法中,匹配( matching) 比較簡(jiǎn)便易行。其基本邏輯是將受到自變量影響的個(gè)體與沒(méi)有受到影響的個(gè)體進(jìn)行配 對(duì)。而傾向值匹配就是保證匹配起來(lái)的個(gè)體的傾向值相等或者近似。再次回到大學(xué)教育的例子,傾向值匹配就是將沒(méi)有受過(guò)大學(xué)教育的人 和受過(guò)大學(xué)教育的人配對(duì)并保證他們的傾向值( 即上大學(xué)的概率) 相 同或近似,這樣我們就得到了上過(guò)大學(xué)和沒(méi)上過(guò)大學(xué)兩組個(gè)體。因?yàn)?已有的混淆變量已經(jīng)在基于傾向值的配對(duì)過(guò)程中被控制起來(lái)了,兩組個(gè)體收入上的差異就只能歸因于大學(xué)教育的有無(wú),而不是其他混淆變 量,由此遏制了選擇性誤差。


羅森鮑姆和魯賓的思想與計(jì)量經(jīng)濟(jì)學(xué)家赫克曼的想法不謀而合。從樣本選擇的角度出發(fā),赫克曼認(rèn)為社會(huì)科學(xué)家在研究某個(gè)自變量效 果的時(shí)候會(huì)不自覺(jué)地選擇一些樣本而忽視另外一些。例如,針對(duì)某個(gè)研究項(xiàng)目,不同的個(gè)體有不同的參與意愿,或者研究者對(duì)于研究個(gè)體的 選擇有特定的傾向。這些選擇效應(yīng)( selection effect) 使得研究者真正接觸的樣本是有一定“偏向的”。而基于一個(gè)帶有選擇性的樣本,我們得出的結(jié)論也會(huì)由于選擇效應(yīng)的“污染”而出現(xiàn)偏差( Heckman, 1979; Heckman & Smith, 1995) 。面對(duì)這種情況,赫克曼認(rèn)為在進(jìn)行研究時(shí)需 要做兩步工作。第一步是建立模型來(lái)擬合個(gè)體參與到某種研究項(xiàng)目中 的可能性,第二步則是在控制這種參與可能性的前提下來(lái)考察我們所關(guān)心的自變量對(duì)因變量的效果。因此,赫克曼的方法也被稱為“兩步估計(jì)法” ( twostep estimator) ( Heckman, 1978, 1979) 。


我們今天所探討的傾向值匹配可以說(shuō)是羅森鮑姆和魯賓的統(tǒng)計(jì)學(xué) 傳統(tǒng)與赫克曼的計(jì)量經(jīng)濟(jì)學(xué)傳統(tǒng)的結(jié)合。羅森鮑姆和魯賓通過(guò)邏輯回 歸方法將混淆變量“總結(jié)”成一個(gè)傾向值,而這也恰恰是赫克曼兩步估 計(jì)法中的第一步所要做的,即通過(guò)模型估算個(gè)體參與某項(xiàng)研究的概率, 二者殊途同歸。然而,這兩個(gè)傳統(tǒng)的一個(gè)不同點(diǎn)在于他們處理傾向值 的方式有一定差異。在得到傾向值之后,羅森鮑姆和魯賓提出了多種 控制傾向值的方法 : 除 了 匹 配 之 外,也可以將傾向值分層 ( stratification) 或細(xì)分( sub-classification) ,然后在每個(gè)層次或類別內(nèi)探 索因果關(guān)系;或者也可以將傾向值作為新的變量進(jìn)行回歸分析。① 而在赫克曼的計(jì)量經(jīng)濟(jì)學(xué)傳統(tǒng)中,傾向值主要是作為一個(gè)新的變量被納入到已有的計(jì)量經(jīng)濟(jì)模型中,例如選擇模型( selection model) ,工具變量( instrumental variable) ,或雙重差分方法( differencein-differences method) 。需要指出的是,這種差異只是在處理傾向值的具體方式上的 不同,本質(zhì)上這兩個(gè)傳統(tǒng)的基本邏輯是一致的,即在考察自變量效果之 前通過(guò)模型估計(jì)并控制個(gè)體受到自變量影響的概率。


在社會(huì)學(xué)領(lǐng)域,早在1997 年,賓夕法尼亞大學(xué)社會(huì)學(xué)系的史密斯 就已經(jīng)使用傾向值匹配方法研究醫(yī)院改革對(duì)患者死亡率的影響( Smith, 1997) 。然而,史密斯這篇文章的主要目的是展示傾向值匹配 方法,因此是作為方法論的論文發(fā)表在《社會(huì)學(xué)方法論》 ( Sociological Methodology) 期刊上的。兩年以后,哈佛大學(xué)的溫希普和摩根在《美國(guó) 社會(huì)學(xué)年鑒》 ( Annual Review of Sociology) 上系統(tǒng)梳理了如何通過(guò)統(tǒng)計(jì) 方法進(jìn)行因果推論,其中也談到了傾向值匹配( Winship & Morgan, 1999) 。


總體上來(lái)說(shuō),在2000 年之前,社會(huì)學(xué)領(lǐng)域內(nèi)對(duì)傾向值匹配的主要 關(guān)注點(diǎn)還是在于熟悉傾向值匹配的基本邏輯,而將其作為一種普遍適 用的統(tǒng)計(jì)方法去研究實(shí)際問(wèn)題還要到21 世紀(jì)才漸漸興起。2003 年, 當(dāng)時(shí)還在哈佛大學(xué)學(xué)習(xí)的哈丁在《美國(guó)社會(huì)學(xué)雜志》 ( American Journal of Sociology) 上發(fā)表了一篇論文研究社區(qū)貧困程度對(duì)社區(qū)少年輟學(xué)及 早孕的影響,其中傾向值匹配開(kāi)始像多元回歸那樣作為一種統(tǒng)計(jì)技術(shù) 來(lái)驗(yàn)證和發(fā)展已有理論( Harding, 2003) 。也正是在這一階段,傾向值 匹配的軟件模塊開(kāi)始被開(kāi)發(fā)出來(lái)并嵌入到一般的統(tǒng)計(jì)軟件中。例如, 貝克爾和櫟野在2002 年發(fā)布了可以嵌入 Stata 的用于傾向值匹配的模 塊“pscore” ( Becker & Ichino, 2002) 。魯汶及夏內(nèi)西也在一年后發(fā)布了 他們所編寫(xiě)的用于傾向值匹配的模塊“psmatch2” ( Leuven & Sianesi, 2003) 。這些統(tǒng)計(jì)模塊的開(kāi)發(fā)使傾向值匹配開(kāi)始在社會(huì)學(xué)領(lǐng)域廣泛應(yīng) 用。根據(jù)哈佛大學(xué)社會(huì)學(xué)系安衛(wèi)華的梳理,截至2009 年,在《美國(guó)社會(huì) 學(xué)評(píng)論》 ( American Sociological Review) 和《美國(guó)社會(huì)學(xué)雜志》上發(fā)表的 論文中,利用傾向值匹配技術(shù)的超過(guò)了200 篇,內(nèi)容涉及教育社會(huì)學(xué)、 互聯(lián)網(wǎng)使用、失業(yè)問(wèn)題、健康問(wèn)題等諸多方面( An, 2010) ??梢哉f(shuō),在 當(dāng)前的社會(huì)學(xué)研究中,傾向值匹配已逐漸發(fā)展成為一個(gè)普適的統(tǒng)計(jì)研 究方法,并得到越來(lái)越多的重視。


傾向值匹配在社會(huì)學(xué)領(lǐng)域的興起并非偶然,這是和社會(huì)學(xué)對(duì)大規(guī) 模調(diào)查資料的使用分不開(kāi)的。與統(tǒng)計(jì)學(xué)領(lǐng)域的實(shí)驗(yàn)設(shè)計(jì)不同,調(diào)查資 料無(wú)法對(duì)研究個(gè)體進(jìn)行人為控制。從這個(gè)意義上說(shuō),基于調(diào)查資料的 研究也被稱為“觀察性研究” ( observational studies) ( Rosenbaum, 2002) 。在實(shí)驗(yàn)性研究中,選擇性誤差可以通過(guò)隨機(jī)化( randomization) 的方法來(lái)克服,但在觀察性研究中,類似的隨機(jī)化是不可能的。因此, 社會(huì)學(xué)家們基于調(diào)查資料去探究任何兩個(gè)變量關(guān)系的時(shí)候都不可避免 地會(huì)受到其他混淆變量的影響。例如,布蘭德和謝宇在2010 年的一篇 論文中列舉了在研究大學(xué)教育和收入關(guān)系時(shí)所存在的選擇性誤差( Brand & Xie, 2010) 。一方面,很多人之所以能夠上好大學(xué)就在于其 個(gè)人能力較其他人高,而這些人在未來(lái)的工作中也很可能表現(xiàn)得更好 從而收入更高。如果我們的研究樣本大部分都是高智商群體,那么就 會(huì)“顯得”大學(xué)教育帶來(lái)高收入,但實(shí)際上,大學(xué)教育對(duì)收入的影響是 被個(gè)人能力這個(gè)變量給“膨脹起來(lái)” ( inflated) 的。另一方面,很多人上 大學(xué)概率低是由于他們家庭貧困難以負(fù)擔(dān)教育費(fèi)用。對(duì)這些人,只要 他們完成了大學(xué)教育,即使畢業(yè)后的收入只是達(dá)到平均水平,也已經(jīng)比 之前有很大飛躍。在這種情況下如果我們的樣本偏重于家境貧寒的 人,我們就會(huì)發(fā)現(xiàn)大學(xué)教育再一次“顯得”對(duì)收入提升有很大促進(jìn)作 用,而此時(shí)的混淆變量就是家庭經(jīng)濟(jì)背景。對(duì)于這種選擇性誤差,我們 可以通過(guò)赫克曼誤差修正模型( selection correction model) 來(lái)進(jìn)行控制, 但這個(gè)模型實(shí)施起來(lái)較為復(fù)雜。相比而言,傾向值匹配為我們提供了 一種更為直觀簡(jiǎn)便的處理選擇性誤差的方法。在下一節(jié),我將通過(guò)一 個(gè)實(shí)例來(lái)展示如何進(jìn)行傾向值匹配。

2 傾向值匹配的實(shí)施過(guò)程:一個(gè)實(shí)例


在這一部分,筆者將利用傾向值匹配的方法分析中國(guó)綜合社會(huì)調(diào)查2005 年城市問(wèn)卷( CGSS2005) 的相關(guān)變量,并由此來(lái)估計(jì)中國(guó)城市 居民大學(xué)教育的收入回報(bào)。其中因變量是收入水平( 2004年全年總收入,包括工資、各種獎(jiǎng)金、補(bǔ)貼、分紅、股息、保險(xiǎn)、退休金、經(jīng)營(yíng)性純收 入、銀行利息、饋贈(zèng)等所有收入) ,這里將其取自然對(duì)數(shù)。我們關(guān)心的自變量是被訪者教育水平( 1 = 大學(xué)本科教育及以上; 0 = 大學(xué)本科教 育以下) 。我們需要控制的混淆變量包括: 性別( 1 = 女性; 0 = 男性) 、 年齡、政治身份( 1 =黨員;0 =非黨員) 、父親教育水平( 1 = 高中教育及 以上;0 =高中教育以下) 、戶口類型( 1 = 城市戶口; 0 = 非城市戶口) 、 被訪者的單位性質(zhì)及父親的單位性質(zhì)( 1 = 黨政機(jī)關(guān); 2 = 國(guó)有企業(yè); 3 =國(guó)有事業(yè);4 =集體企事業(yè);5 = 其他) 。此處選取這些變量是因?yàn)橐?有研究表明這些變量會(huì)混淆教育水平和收入之間的關(guān)系

一般我們會(huì)把這些混淆變量作為控制變量納入到回歸模型中,但這樣做有一些潛在風(fēng)險(xiǎn)。首先,如果將這些混淆變量作為自變量放進(jìn) 回歸模型,我們就潛在假定了這些混淆變量對(duì)收入的效果與大學(xué)教育 對(duì)收入的效果之間存在一種線性關(guān)系。然而這種線性假定缺乏理論和 實(shí)踐依據(jù) ( Morgan, 2001) 。也就是說(shuō),我們不能簡(jiǎn)單認(rèn)為性別對(duì)收入 的影響與教育對(duì)收入的影響是累加的( additive) 。其次,大學(xué)教育的回 歸系數(shù)代表的是一種“平均”效果。這個(gè)系數(shù)所回答的問(wèn)題是: 在人口 中任意選取一個(gè)人,如果他接受的是大學(xué)教育,他的收入會(huì)是什么水平。然而,在探索因果關(guān)系時(shí)我們所關(guān)心的問(wèn)題則是:( 1) 一個(gè)任意選 取的大學(xué)生如果一開(kāi)始沒(méi)上大學(xué)的話會(huì)是什么收入水平; ( 2) 一個(gè)任 意選取的非大學(xué)生如果上大學(xué)的話會(huì)是什么收入水平。( 1) 和( 2) 是 兩個(gè)不同的問(wèn)題,而回歸模型則沒(méi)有區(qū)分它們,只是取了它們的平均水 平,這樣做無(wú)疑會(huì)帶來(lái)誤差。最后,由于混淆變量與我們關(guān)心的自變量 之間存在相關(guān)性,簡(jiǎn)單地將混淆變量納入多元回歸模型有可能產(chǎn)生共 線性問(wèn)題。傾向值匹配有效地控制了這些混淆變量,同時(shí)還通過(guò)一種 半非參數(shù)性( semi non-parametric) 方法避免了上面提到的三個(gè)風(fēng)險(xiǎn)。① 具體而言,運(yùn)用傾向值匹配方法有以下幾步。


步驟一:預(yù)測(cè)傾向值。這一步是利用已知的混淆變量使用 Logistic 或 Probit 模型來(lái)預(yù)測(cè)個(gè)體進(jìn)入大學(xué)讀書(shū)的概率?;谏厦孀兞?,得到 的結(jié)果見(jiàn)表1。

通過(guò)表1 我們可以發(fā)現(xiàn),這些混淆變量加在一起對(duì)是否進(jìn)入大學(xué) 學(xué)習(xí)有比較強(qiáng)的解釋力,這一點(diǎn)可以從虛擬 R2( Pseudo R2)的數(shù)值( 超 過(guò)17%) 看出來(lái)。對(duì)社會(huì)學(xué)研究而言,這個(gè)虛擬 R2 值并不低,由此可 以看出該模型中的混淆變量能夠比較顯著地預(yù)測(cè)個(gè)體能否進(jìn)入大學(xué)讀書(shū)。

步驟二:基于傾向值進(jìn)行匹配。有了上面的 Probit 模型,我們就能 夠預(yù)測(cè)每個(gè)研究個(gè)體的傾向值。需要指出的是,雖然每個(gè)個(gè)體都有傾 向值得分,但有些人的傾向值太高或太低,因此無(wú)法找到相匹配的個(gè)體。這些傾向值取值非?!皹O端”的人因?yàn)闆](méi)有與之匹配的個(gè)體存在 往往無(wú)法為我們提供有用的信息,所以在隨后的分析中也就沒(méi)有被考 慮進(jìn)去,這就使得最后我們?cè)诜治龈叩冉逃氖杖牖貓?bào)時(shí)所采用的樣 本量可能要比一開(kāi)始的樣本量小。在這個(gè)最后使用的“匹配樣本”中, 我們能夠確保受過(guò)高等教育的個(gè)體和沒(méi)有受過(guò)高等教育的個(gè)體匹配起 來(lái)?!捌ヅ錁颖尽敝袃A向值的取值范圍被稱為“共同區(qū)間”( common support) 。本研究中共同區(qū)間內(nèi)的樣本量為3164( 其中上過(guò)大學(xué)的為 229 人) 。在這個(gè)共同區(qū)間內(nèi),我們有不同的匹配方法將受過(guò)大學(xué)教育 的229 人和沒(méi)受過(guò)大學(xué)教育的 2935 人配對(duì)。對(duì)某個(gè)上過(guò)大學(xué)的個(gè)體 A,比較常用的方法包括鄰近匹配( 找與 A 的傾向值得分最接近的未上 大學(xué)的個(gè)體 B 匹配) ,半徑匹配( 以個(gè)體 A 的傾向值為中心,以某個(gè)數(shù) 值為半徑,在這個(gè)范圍內(nèi)的所有沒(méi)上過(guò)大學(xué)的個(gè)體與 A 匹配) 以及核 心匹配。

步驟三:基于匹配樣本進(jìn)行因果系數(shù)估計(jì)。在這個(gè)匹配好的樣本 中,我們只需比較那些上過(guò)大學(xué)和沒(méi)上大學(xué)的個(gè)體的平均收入差值就 可以估計(jì)出大學(xué)教育本身對(duì)收入的影響。由于配對(duì)樣本的傾向值近 似,配對(duì)個(gè)體在混淆變量上的取值極為近似,這樣也就控制了混淆變量 的影響。換句話說(shuō),我們得到的組間( 上大學(xué)和沒(méi)上大學(xué)) 差異就只能 歸因于大學(xué)教育的有無(wú)。我們最后的結(jié)果如表2 所示。

通過(guò)表2 可以發(fā)現(xiàn),不同匹配方法下我們得到的因果關(guān)系系數(shù)不 完全相等,這是因?yàn)槭苓^(guò)大學(xué)教育的個(gè)體在不同的匹配方式下可能和不同的未受大學(xué)教育的個(gè)體進(jìn)行了匹配。然而這些不同的匹配方法得出的結(jié)論基本一致( 系數(shù)在0. 73 到0. 77 之間) 。這些系數(shù)就是大學(xué)教育的收入回報(bào)。其可以解釋為與沒(méi)有受過(guò)大學(xué)教育的人相比,大學(xué)教育帶來(lái) log( 年收入) 的變化。

需要說(shuō)明的是,在社會(huì)學(xué)定量研究中,在完成了匹配以后,通常會(huì) 比較每個(gè)混淆變量在大學(xué)組與非大學(xué)組之間是否還存在顯著差異。理想情況是大學(xué)組與非大學(xué)組的混淆變量均值沒(méi)有顯著差異,這時(shí)我們 可以說(shuō)這樣的配對(duì)樣本是“平衡” ( balanced) 的。限于篇幅,這里未將 均值比較結(jié)果展示出來(lái),但我們上面的分析已通過(guò)了平衡性檢驗(yàn)。此 外,傾向值匹配通常配合敏感性分析( sensitivity analysis) 來(lái)檢驗(yàn)我們?cè)?預(yù)測(cè)傾向值時(shí)是否忽略了某些關(guān)鍵的混淆變量。在敏感性分析階段, 我們假設(shè)存在一個(gè)或多個(gè)我們沒(méi)有能夠控制的混淆變量,如果這些假 設(shè)的未控制變量對(duì)收入的影響的大范圍變動(dòng)都無(wú)法改變我們的結(jié)論,我們的結(jié)論就站得住腳。上面的研究就通過(guò)了相關(guān)的檢驗(yàn)。

3 傾向值匹配與因果推論

傾向值匹配后的結(jié)果不僅僅指出了變量之間有聯(lián)系,還進(jìn)一步確 立了二者之間的因果性。這種方法論上的優(yōu)勢(shì)可以從科技哲學(xué)和統(tǒng)計(jì) 學(xué)兩個(gè)方面予以闡釋。

1、科技哲學(xué)角度的闡釋 

傾向值匹配對(duì)因果性結(jié)論的支持首先依據(jù)的是科技哲學(xué)領(lǐng)域內(nèi)對(duì) 因果關(guān)系的理論探討。當(dāng)我們談及因果性的時(shí)候,我們往往會(huì)回歸到 密爾對(duì)求同法( method of agreement) 及求異法 ( method of differences) 的討論( 彭玉生, 2011; Mill, 2002/1984; Sobel, 1995, 1996) 。求同法是 指在一個(gè)群體中所有人都在兩個(gè)變量上取值相同( 例如所有人都上了 大學(xué),同時(shí)所有人都是高智商) 而在其他變量上取值不同( 他們不全是 女性,不全是農(nóng)村居民,等等) ,那么這兩個(gè)變量之間( 大學(xué)教育和智力 水平) 就具有因果關(guān)系。求異法是指兩個(gè)個(gè)體在因變量上的取值不 同,而在某個(gè)自變量之外的其他自變量上的取值相同,則那個(gè)取值不同 的自變量和因變量之間存在因果關(guān)系。正如彭玉生所論述的那樣,密 爾的這兩種探索因果關(guān)系的方法對(duì)后來(lái)的統(tǒng)計(jì)實(shí)驗(yàn)設(shè)計(jì)有著巨大影響 ( 彭玉生, 2011) 。無(wú)論是求同法還是求異法,二者都要求對(duì)關(guān)鍵自變 量之外的其他自變量進(jìn)行考察。只有其他自變量滿足特定的條件時(shí) ( 求同法要求其他自變量的取值都不一樣,而求異法要求其他自變量 的取值都一樣) 我們才能夠確定某種因果關(guān)系。這實(shí)際上是引入了 “控制”的思想,即只有“控制”了其他變量,我們才能夠真正確定我們關(guān)心的兩個(gè)變量之間存在因果關(guān)系。

從“控制”的角度出發(fā),傾向值匹配十分巧妙地完成了對(duì)多個(gè)混淆 變量的控制。我們可以從一個(gè)混淆變量的情況談起: 假定只有個(gè)人智 力水平混淆了大學(xué)教育和收入之間的關(guān)系。一個(gè)比較直觀的控制個(gè)人 智力的辦法是將個(gè)人智力這一變量細(xì)分( sub-classification) 成不同層次 以保證每一個(gè)層次中的人的個(gè)人智力水平近似。然后我們?cè)诟鱾€(gè)層次 內(nèi)部觀察大學(xué)教育和收入的關(guān)系,最后將這些關(guān)系綜合起來(lái)( Rubin, 1997) 。如果存在兩個(gè)混淆變量( 例如家庭經(jīng)濟(jì)背景好壞和個(gè)人智力 高低) ,我們可以將這兩個(gè)變量交互分成 2x2 個(gè)小組,組內(nèi)個(gè)體在這兩 個(gè)變量上的取值都是一樣的( 家庭背景好且智力高、家庭背景好且智 力低、家庭背景不好且智力高,以及家庭背景不好且智力低) ,在每組 內(nèi)部觀察大學(xué)教育和收入的關(guān)系然后綜合起來(lái)。至此,通過(guò)細(xì)分的方 法,我們完成了“控制”混淆變量的工作。但隨著混淆變量越來(lái)越多, 這種細(xì)分法就變得十分不方便了。例如,如果我們要控制5 個(gè)混淆變 量,每個(gè)變量有5 個(gè)取值水平,我們就需要?jiǎng)澐?5 = 3125 個(gè)小組。很 快我們的數(shù)據(jù)樣本量就不夠保證每一組都有個(gè)體。傾向值匹配的辦法 巧妙地解決了這個(gè)多混淆變量下的“多維” ( multiple dimensional) 問(wèn) 題:它不再關(guān)注每個(gè)需要控制的混淆變量的具體取值,而是轉(zhuǎn)而關(guān)注將 這些變量納入 Logistic 回歸方程后預(yù)測(cè)出來(lái)的傾向值取值。只要保證 傾向值匹配,這些所有需要控制的混淆變量就都考慮到了( Rosenbaum & Rubin, 1983) 。這樣做實(shí)際上是將對(duì)多個(gè)混淆變量的控制轉(zhuǎn)為對(duì)傾 向值的控制從而達(dá)到“降維” ( dimension reduction) 的目的。換句話說(shuō), 無(wú)論有多少需要控制的混淆變量,我們都能夠通過(guò)傾向值匹配的方法 將它們控制,從而幫助我們得出因果性結(jié)論。因此,從“控制”的角度 出發(fā),傾向值匹配法很好地解決了多混淆變量時(shí)的控制問(wèn)題,從而支持 了因果推論。

2、統(tǒng)計(jì)學(xué)角度的闡釋 

傾向值匹配的因果推論功能也能通過(guò)統(tǒng)計(jì)學(xué)視角進(jìn)行闡釋。這里我們需要引入反事實(shí)框架( counterfactual framework) 這一統(tǒng)計(jì)學(xué)理論。 反事實(shí)( counter facts) 是指相反情境下的某種狀態(tài)。例如,一群病人在 一個(gè)實(shí)驗(yàn)中被分到實(shí)驗(yàn)組接受新藥物治療。這些人癥狀的減輕或加重 是我們能夠觀察到的“事實(shí)”。而“反事實(shí)”則是指“假設(shè)”這同一群病 人當(dāng)時(shí)不是被分到實(shí)驗(yàn)組而是對(duì)照組,即沒(méi)有接受新藥物治療,那么他 們的癥狀會(huì)是什么樣子。自變量( 新藥) 對(duì)于癥狀的因果性效果在統(tǒng) 計(jì)學(xué)意義上就是指這“同一群人”在實(shí)驗(yàn)組時(shí)的癥狀和在對(duì)照組時(shí)的 癥狀之間的差異。換句話說(shuō),統(tǒng)計(jì)學(xué)上的因果關(guān)系是可觀察到的“事 實(shí)”與其“反事實(shí)”之間的差異。從反事實(shí)的框架出發(fā),因果性的關(guān)系 可以表示為: 

在這個(gè)公式里, Τ 是指因果關(guān)系; π 是指所有調(diào)查對(duì)象中在實(shí)驗(yàn)組 中的比例,而1 - π 也就表示了所有調(diào)查對(duì)象中在對(duì)照組的比例( 例如 1/3 是大學(xué)生,那么 π = 1/3,而沒(méi)上大學(xué)的人的比例就是1 - π = 2/ 3) ; w 是一個(gè)二分變量,其中1 代表個(gè)體在實(shí)驗(yàn)組而0 代表個(gè)體在對(duì)照 組; Y1 和 Y0 分別指代實(shí)驗(yàn)組和對(duì)照組的成員在因變量上的取值。E 則是取平均值的意思。在上述公式中, E ( Y1 | w =1) 或 E ( Y0 | w = 0) 是可觀測(cè)到的事實(shí),而 E( Y1 |w =0) 和 E( Y0 |w =1) 則是反事實(shí)。 ① 因 果關(guān)系 T 就表示為實(shí)驗(yàn)組中的個(gè)體其“事實(shí)”與“反事實(shí)”之間的差 異———即 E( Y1 |w = 1) - E( Y0 | w = 1) ———與對(duì)照組中的個(gè)體其“事實(shí)”與“反事實(shí)”之間的差異———即 E( Y1 |w =0) - E( Y0 |w =0) ———的 加權(quán)平均值( 權(quán)重分別為 π 和1 - π) 。

但問(wèn)題在于,我們永遠(yuǎn)也不可能觀測(cè)到反事實(shí)是什么,因?yàn)樵谀稠?xiàng) 特定的研究中,某一群人只可能在實(shí)驗(yàn)組或?qū)φ战M,而不能同時(shí)在兩組 中出現(xiàn)。這被稱為“因果推論的基本問(wèn)題” ( Holland, 1986) 。為了做出因果推論,我們需要用可觀測(cè)到的 E( Y1 | w =1) 和 E( Y0 | w = 0) 來(lái)簡(jiǎn) 化上面的因果推論公式。具體而言,我們希望能夠滿足以下條件,這在 統(tǒng)計(jì)學(xué)上稱為“非混淆假設(shè)” ( unconfoundedness assumption) :

不難看出,如果滿足非混淆假設(shè),反事實(shí)框架下的因果推論公式就 簡(jiǎn)化為: 

如果簡(jiǎn)化因果推論公式右邊的兩項(xiàng)均能觀測(cè)到,我們就能做出因 果性結(jié)論,因此,從反事實(shí)框架出發(fā),能否做出因果推論主要取決于非 混淆假設(shè)是否滿足。 ① 隨機(jī)化是統(tǒng)計(jì)學(xué)中常用的辦法,由于實(shí)驗(yàn)個(gè)體 是通過(guò)隨機(jī)方式分配到實(shí)驗(yàn)組和對(duì)照組中的,w 本身就和最后的實(shí)驗(yàn) 結(jié)果 Y1 或 Y0 沒(méi)有關(guān)系了。 ② 換句話說(shuō),無(wú)論 w =0 還是 w =1, E( Y1) 或 E( Y0) 的值都是固定的,進(jìn)而 E( Y1 |w =0) = E( Y1 |w =1) 且 E( Y0 |w =0) = E( Y0 |w =1) 。但是,對(duì)基于調(diào)查資料的社會(huì)學(xué)研究來(lái)講,我 們做不到隨機(jī)化。為了滿足非混淆假設(shè),我們能做的是盡可能控制混 淆變量,并保證這些變量一旦被控制起來(lái), w 就能夠近似地和 Y1 或Y0 保持獨(dú)立,換句話說(shuō),我們希望做到: 

上式表明,只要能夠找到并控制混淆變量 X,我們就能夠近似地做 到 w 獨(dú)立于 Y。在傾向值匹配中,所有的這些 X 通過(guò)Logistic 回歸總 結(jié)成為一個(gè)特定的傾向值 P,而非混淆假設(shè)就是通過(guò)控制傾向值 P 來(lái) 滿足的。即:

至此,通過(guò)控制傾向值,我們可以“近似地”滿足統(tǒng)計(jì)學(xué)反事實(shí)框架下的非混淆假設(shè)從而做出因果推論。之所以說(shuō)“近似”,是因?yàn)榭刂?傾向值的效果畢竟不是真正的隨機(jī)化。很多時(shí)候我們很難知道是否已 經(jīng)控制了需要控制的“所有”混淆變量。正因?yàn)槿绱耍谕瓿蓛A向值匹 配以后我們通常需要進(jìn)行敏感性分析。在這個(gè)意義上說(shuō),傾向值匹配 只是努力地滿足反事實(shí)框架下的因果推論條件,但即使如此,我們也已 經(jīng)從統(tǒng)計(jì)學(xué)意義上理解了傾向值匹配為什么能夠幫助我們得出因果性結(jié)論。

4 傾向值匹配與其他社會(huì)科學(xué)方法的比較


以上分析從科技哲學(xué)及統(tǒng)計(jì)學(xué)的角度闡釋了為什么通過(guò)傾向值匹 配可以得到因果性結(jié)論。然而,因果性分析的方法并不局限于傾向值 匹配,在教育學(xué)及計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域中有很多其他的方法可以幫助我們 建構(gòu)因果關(guān)系。在以下討論中,我將把傾向值匹配與回歸中斷設(shè)計(jì)和 工具變量進(jìn)行比較以展示傾向值匹配的優(yōu)勢(shì)。

1、傾向值匹配和回歸中斷設(shè)計(jì)

在教育學(xué)中應(yīng)用比較廣泛的因果推論方法是“回歸中斷設(shè)計(jì)” ( regression discontinuity design) 。該方法最先由兩位美國(guó)學(xué)者在 1960 ( Thistlethwaite & Campbell, 1960) 提出。在他們的研究中,兩位學(xué)者關(guān) 心的是學(xué)習(xí)上的榮譽(yù)獎(jiǎng)勵(lì)( 原因) 是否能夠提升學(xué)生未來(lái)的學(xué)術(shù)成就 ( 結(jié)果) 。這里的榮譽(yù)獎(jiǎng)勵(lì)是根據(jù)考試成績(jī)而定的: 當(dāng)考試成績(jī) x 超過(guò) 一定分?jǐn)?shù) c,則給予獎(jiǎng)勵(lì)( D =1) ,否則( x < c 時(shí)) 則沒(méi)有獎(jiǎng)勵(lì)( D =0) 。通過(guò)這種操作,我們就在我們所關(guān)心的自變量那里建立了一種“中斷” ( c 之上和之下) 。隨后如果學(xué)生的學(xué)術(shù)成就也發(fā)生了類似的中斷( 例 如考試成績(jī)?cè)?c 以下學(xué)生的學(xué)術(shù)成就低于考試成績(jī)?cè)?c 以上的學(xué)生的 學(xué)術(shù)成就) ,則可以認(rèn)為獎(jiǎng)勵(lì)和學(xué)術(shù)成就之間有因果關(guān)系。圖 1 用圖 示的方式表達(dá)了這種關(guān)系。

在圖1 中, x 在 c 處的中斷對(duì)應(yīng)于因變量 Y 的中斷,這種中斷 τ 代 表了 x 對(duì)于 Y 的效果。從反事實(shí)框架來(lái)看,回歸中斷設(shè)計(jì)滿足了非混 淆假設(shè)。在上面的榮譽(yù)獎(jiǎng)勵(lì)例子中,一個(gè)人得到榮譽(yù)獎(jiǎng)勵(lì)可以理解為 一個(gè)人進(jìn)入了實(shí)驗(yàn)組,而這“完全”取決于學(xué)生的考試分?jǐn)?shù) x( 分?jǐn)?shù)高就有獎(jiǎng)勵(lì)而分?jǐn)?shù)低則沒(méi)有獎(jiǎng)勵(lì)) 。因此,只要我們控制了分?jǐn)?shù) x, w( 是否 得到獎(jiǎng)勵(lì)) 就和因變量 Y1( 得到獎(jiǎng)勵(lì)的學(xué)生的學(xué)術(shù)成就) 以及 Y0( 沒(méi)有 得到獎(jiǎng)勵(lì)的學(xué)生的學(xué)術(shù)成就) 獨(dú)立了。用公式可以表述如下: 

這里我們可以將回歸中斷設(shè)計(jì)與傾向值匹配進(jìn)行一下比較。傾向 值匹配將對(duì)多個(gè)混淆變量的控制轉(zhuǎn)化為對(duì)“單一傾向值”的控制,以此 滿足非混淆假設(shè)。而回歸中斷設(shè)計(jì)則是通過(guò)控制一個(gè)變量( 如上例中 的考試成績(jī)) 就能完成這一點(diǎn)?;貧w中斷設(shè)計(jì)之所以不需要考慮多個(gè) 混淆變量就在于一個(gè)個(gè)體是否能夠接受某個(gè)自變量的影響( 即能否得 到獎(jiǎng)勵(lì)) 完全取決于單一變量 x( 考試成績(jī)) 。換句話說(shuō),回歸中斷設(shè)計(jì) 中只有一個(gè)混淆變量 x。然而,在社會(huì)學(xué)的調(diào)查研究中很難找到這種 “單一混淆變量”的情況。正因?yàn)槿绱?,回歸中斷設(shè)計(jì)在社會(huì)學(xué)中的應(yīng) 用遠(yuǎn)不及在教育學(xué)中普遍( Angrist & Lavy, 1999; Black, 1999) 。此外, 回歸中斷設(shè)計(jì)的另一個(gè)缺陷在于: 如果存在其他自變量也出現(xiàn)某種 “中斷”的情況,我們就很難知道什么原因造成了因變量取值的中斷。假設(shè)一個(gè)人是否獲獎(jiǎng)不僅僅與考試成績(jī)?cè)谂R界點(diǎn)上下有關(guān)( x > c 或x < c) ,也和年齡有關(guān)( 例如年齡大的人容易獲獎(jiǎng),而年齡小的人很難 獲獎(jiǎng)) ,則回歸中斷設(shè)計(jì)就無(wú)法探究榮譽(yù)獎(jiǎng)勵(lì)本身對(duì)未來(lái)學(xué)術(shù)成就的 影響( 因?yàn)閷W(xué)術(shù)成就的中斷也有可能是因?yàn)槟挲g不同) ( Hahn et al. , 2001) 。在社會(huì)學(xué)研究中,類似的多重中斷并不少見(jiàn),這也使得回歸中 斷設(shè)計(jì)的應(yīng)用范圍受到限制。

2、傾向值匹配和工具變量

除了回歸中斷設(shè)計(jì),在經(jīng)濟(jì)學(xué)及傳染病學(xué)領(lǐng)域應(yīng)用比較廣泛的另 外一個(gè)方法是工具變量( instrumental variable) ( Angrist et al. , 1996; Angrist & Krueger, 2001; Greenland, 2000; Martens et al. , 2006; Newhouse & McClellan, 1998) 。假定我們希望探索變量 X 對(duì) Y 的因果關(guān)系,混淆變量U的存在會(huì)影響我們的研究。這時(shí)我們尋找到一個(gè)工具變量 Z,該 變量的特點(diǎn)在于和 X 相關(guān),但不和 Y 直接相關(guān)( 除非是通過(guò) X) ,同時(shí) Z 也不與混淆變量U 相關(guān)。這樣,我們就不直接考察X 是否能影響 Y, 而是轉(zhuǎn)而考察 Z 對(duì) Y 的影響。如果 Z 很明顯地影響了 Y,我們就能得 出 X 影響了 Y 的結(jié)論。工具變量的基本邏輯表示如圖2。

通過(guò)圖2 我們很容易理解工具變量的基本邏輯,由于混淆變量 U 和 X 互相影響,我們很難直接探索 X 對(duì) Y 的“純”作用。所以我們找 到工具變量 Z。Z 和 Y 的關(guān)系只能通過(guò) X,因此如果我們能夠發(fā)現(xiàn) Z 對(duì) Y 有作用,我們就能間接得出結(jié)論說(shuō) X 對(duì) Y 有作用,從而確定了一 種因果關(guān)系。

從嚴(yán)格的統(tǒng)計(jì)學(xué)意義上來(lái)說(shuō),利用工具變量進(jìn)行因果推論需要滿 足很多假設(shè)條件( Imbens & Angrist, 1994) 。這里可以通過(guò)一個(gè)經(jīng)典實(shí)例來(lái)展示這些假設(shè)。安格里斯特等人( Angrist et al. , 1996) 使用工具變 量分析了服兵役( X) 是否會(huì)對(duì)士兵在退伍后的健康狀況( Y) 產(chǎn)生因果 性影響。這里,服兵役的工具變量是抽簽的結(jié)果( Z) 。當(dāng)抽到的數(shù)字 低于某個(gè)值則服兵役,而高于這個(gè)值則不需服兵役。在這個(gè)例子中,安 格里斯特及其同事闡述了使用工具變量進(jìn)行因果推論的幾個(gè)關(guān)鍵假 設(shè)。第一個(gè)假設(shè)稱為“單位實(shí)驗(yàn)效果值穩(wěn)定假設(shè)” ( stable unit treatment value assumption) 。這意味著每個(gè)人的抽簽結(jié)果不會(huì)對(duì)他人是否服兵 役產(chǎn)生影響。第二個(gè)假設(shè)就是上面提到的非混淆假設(shè),即抽簽的結(jié) 果和個(gè)體的健康之間相互獨(dú)立。由于這里是隨機(jī)抽簽,因此這一條件 得到滿足。第三個(gè)假設(shè)是“排除性假設(shè)” ( exclusion restriction) 。這一 假設(shè)意味著在因果推論中排除兩類人。第一類人是無(wú)論抽簽結(jié)果如何 都會(huì)服兵役( 總是服兵役的人) ,而第二類人是無(wú)論抽簽結(jié)果如何都不 會(huì)服兵役( 總是不服兵役的人) 。第四個(gè)假設(shè)是“平均因果效果非 零” ( nonzero average causal effect) ,即保證如果抽中的號(hào)碼小,則服兵 役的概率就高。最后一個(gè)假設(shè)是“單調(diào)性” ( monotonicity) ,意味著抽 中小數(shù)字的人去服兵役的概率要比抽中大數(shù)字的人去服兵役的概率高。根據(jù)這一假設(shè),那些“低數(shù)字偏偏不服兵役”而“高數(shù)字偏偏服兵 役”的“叛逆者”就被排除在外了。

根據(jù)這些假設(shè),我們回到反事實(shí)框架下的因果推論公式,即:

這里由于我們有抽簽的機(jī)制, π( 即服兵役的比例) 就等于 X( Z =1) , 而沒(méi)有服兵役的比例1 - π 則等于 X( Z =0) ,而w = X。其中, X 表示是否 服兵役,它是 Z 的函數(shù),而 Z 表示抽簽結(jié)果( Z = 1 表示抽中小號(hào),而 Z =0 表示抽中大號(hào)) 。將它們代入反事實(shí)框架下的因果推論公式,我們得到: 

由于叛逆者被排除出去,可以假定 E( Y0 | X = 1) = E( Y0 | X = 0) =0,這進(jìn)一步將因果關(guān)系簡(jiǎn)化成為:

上述公式右端的各項(xiàng)都是可觀測(cè)到的,從而使得因果推論得以完 成。然而,使用工具變量方法存在諸多限制。首先,我們所推論出的因 果關(guān)系被稱為“局部平均治療效果” ( local average treatment effect) ( Wooldridge, 2002) 。這是因?yàn)槲覀冏罱K能夠推算出的因果關(guān)系僅僅 適用于那些遵循“拿到小號(hào)服兵役,拿到大號(hào)不服兵役”原則的“服從 者” ( complier) ( Imbens & Angrist,1994) ,但我們不能考察總是服兵役 的人、總是不服兵役的人或叛逆者。其次,工具變量方法能否帶來(lái)因果 推論很大程度上取決于我們能否找到好的工具變量。如果工具變量本 身不夠好( 比如工具變量和我們關(guān)心的自變量的聯(lián)系很弱,或者和某 些混淆變量有關(guān)系) ,那么我們的結(jié)論就站不住腳了( Bound et al. , 1995) 。最后,工具變量的實(shí)施需要滿足一定的隨機(jī)性以滿足非混淆 假設(shè)。但在社會(huì)學(xué)研究中,類似于隨機(jī)抽簽這樣“完美”的工具變量幾 乎很少見(jiàn)到。

總之,無(wú)論是回歸中斷設(shè)計(jì)還是工具變量都不能夠像傾向值匹配 那樣可以方便地應(yīng)用于基于調(diào)查研究的數(shù)據(jù)分析?;貧w中斷設(shè)計(jì)需要 尋找一個(gè)變量“完全決定”個(gè)體是否進(jìn)入實(shí)驗(yàn)組或?qū)φ战M,而工具變量 的方法也需要尋找到合適的工具變量來(lái)滿足上面列舉的諸多條件,這 些在調(diào)查數(shù)據(jù)中往往難以滿足。正因?yàn)槿绱?,在社?huì)學(xué)研究中傾向值匹配的方法要比其他方法更為“流行”。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多