許久以來,很多朋友都希望我出一期有關(guān)雙重差分傾向得分匹配方法(PSM-DID)的內(nèi)容,但我一直遲遲沒有動筆。事實上,我個人并不喜歡這一方法,也并不推薦大家使用這一方法,因為PSM-DID壓根就不是什么“靈丹妙藥”,在應(yīng)用中問題頗多。也許你在一些top期刊上經(jīng)??吹絇SM-DID的身影,但這并不意味著它就沒有問題。雙重差分傾向得分匹配方法(PSM-DID)是傾向得分匹配(PSM)與雙重差分法(DID)的有機結(jié)合(DID是主,PSM是次),但是這一結(jié)合事實上就是一段“孽緣”。我們的理想很美好,PSM模型負責尋找與處理組盡可能相似的控制組(根據(jù)傾向得分),DID模型負責評估政策帶來的影響。  圖片來源:謝申祥等(2021)論文《傳統(tǒng)PSM-DID 模型的改進與應(yīng)用》然而現(xiàn)實很殘酷,PSM模型適用于截面數(shù)據(jù),而DID適用于面板數(shù)據(jù)。二者適用的數(shù)據(jù)類型不同,如何在面板數(shù)據(jù)中應(yīng)用PSM模型就成了PSM-DID模型無法回避的問題,為了解決這一問題,學者們一般有兩種解決方案,一種是將面板數(shù)據(jù)當做橫截面數(shù)據(jù)進行處理(混合匹配),另一種是在面板數(shù)據(jù)的每期截面上進行逐期匹配。事實上,這兩種方案都并不完善,下面我將分別闡述它們在應(yīng)用中所存在的問題。混合匹配混合匹配是將面板數(shù)據(jù)當做橫截面數(shù)據(jù)進行處理,為處理組的每條觀測值匹配一條控制組的觀測值。接下來,我就使用石大千等(2018)發(fā)表在《中國工業(yè)經(jīng)濟》上的論文《智慧城市建設(shè)能否降低環(huán)境污染》使用的數(shù)據(jù),給大家展示一下混合匹配的Stata操作以及混合匹配帶來的問題。原文信息 石大千,丁海,衛(wèi)平,劉建江.智慧城市建設(shè)能否降低環(huán)境污染[J].中國工業(yè)經(jīng)濟,2018(06):117-135. 首先,我們需要產(chǎn)生隨機數(shù),對樣本進行排序。為了保證結(jié)果可復(fù)現(xiàn),我就設(shè)定種子值為20210415 。set seed 20210415 gen tmp=runiform() sort tmp
接下來,我們可以使用psmatch2 命令(外部命令需要安裝ssc install psmatch2, replace )進行傾向得分匹配,我選擇的匹配方法是一對一近鄰匹配。其中,du 是處理組虛擬變量;$xlist 是協(xié)變量(控制變量);選擇項out() 用來指定結(jié)果變量y ,這里填入DID模型的被解釋變量即可;選擇項logit 表示使用logit模型來估計傾向得分,默認方法是probit;選擇項common 表示僅對共同取值范圍內(nèi)個體進行匹配;選擇項ate 表示同時匯報ATE、ATU和ATT。. psmatch2 du $xlist , out(lnrso) logit neighbor(1) common ate //近鄰匹配
 打開數(shù)據(jù)編輯窗口,我們會發(fā)現(xiàn)軟件自動生成了幾個新變量。其中_pscore 是每個觀測值對應(yīng)的傾向得分;_treated 表示某個對象是否處理組;_support 表示觀測對象是否在共同取值范圍內(nèi);_weight 是觀測對象用于匹配的頻率,如果_weight 為空值,那就說明雖然你看上了對方(會有一個匹配對象),但是你并沒有被對方看上(對方匹配上的不是你);_id 是自動生成的每一個觀測對象唯一的ID;_n1 表示的是他被匹配到的對照對象的_id (如果是1:3匹配,還會生成_n2, _n3);_pdif 表示一組匹配了的觀察對象他們概率值的差。 最后,我們只需去掉匹配不成功的樣本(即_weight 為空值的樣本),然后再用DID方法去進行估計就可以了。PSM-DID估計結(jié)果顯示,交互項dudt 的系數(shù)為-0.1781016,表明智慧城市建設(shè)顯著降低了約17.81%的人均廢氣排放量。. drop if _weight==. (1,467 observations deleted)
. reghdfe lnrso dudt $xlist ,absorb(c year) vce(cluster c) //DID估計 (dropped 21 singleton observations) (MWFE estimator converged in 7 iterations)
HDFE Linear regression Number of obs = 1,207 Absorbing 2 HDFE groups F( 7, 218) = 2.12 Statistics robust to heteroskedasticity Prob > F = 0.0423 R-squared = 0.8880 Adj R-squared = 0.8608 Within R-sq. = 0.0350 Number of clusters (c) = 219 Root MSE = 0.4147
(Std. Err. adjusted for 219 clusters in c) ------------------------------------------------------------------------------ | Robust lnrso | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- dudt | -.1781016 .0834432 -2.13 0.034 -.3425604 -.0136429 lnrgdp | 2.101315 1.207922 1.74 0.083 -.2793847 4.482014 lntgdp | -.0910883 .0572348 -1.59 0.113 -.2038928 .0217162 lninno | .1235118 .0676161 1.83 0.069 -.009753 .2567767 lnurb | .1283764 .064476 1.99 0.048 .0013002 .2554525 lnopen | .0317352 .0459506 0.69 0.491 -.0588291 .1222995 lnss | -.1781226 .3485232 -0.51 0.610 -.865029 .5087837 _cons | -13.93434 6.665826 -2.09 0.038 -27.07205 -.7966249 ------------------------------------------------------------------------------
Absorbed degrees of freedom: -----------------------------------------------------+ Absorbed FE | Categories - Redundant = Num. Coefs | -------------+---------------------------------------| c | 219 219 0 *| year | 11 0 11 | -----------------------------------------------------+ * = FE nested within cluster; treated as redundant for DoF computation
不過,這一估計結(jié)果并不可信,因為混合匹配存在“時間錯配”的問題,即某一期的處理組觀測對象,可能與不同期的控制組觀測對象相匹配。例如,你會驚奇的發(fā)現(xiàn),2006年的遵義市居然匹配上的是2014年的佳木斯市,時隔八年,還有什么可比性呢?這種“時間錯配”現(xiàn)象在混合匹配中是一種常態(tài),它帶來的后果就是我們無法有效控制時間固定效應(yīng),從而使得DID估計產(chǎn)生偏差。. list c year city prov _treated _id _n1 if _id==379|_id==1915
+------------------------------------------------------------+ | c year city prov _treated _id _n1 | |------------------------------------------------------------| 1. | 61 2014 佳木斯市 黑龍江省 Untreated 379 1915 | 1220. | 242 2006 遵義市 貴州省 Treated 1915 379 | +------------------------------------------------------------+
很多中文論文在使用PSM-DID方法時,對于匹配的細節(jié)都“緘口不言”,加之又沒有要求公布數(shù)據(jù)和代碼,所以我們并不知道哪些中文文獻使用了這種“糟糕的”匹配方案,但我估計應(yīng)該不在少數(shù)。我們不能說混合方案就是錯的,畢竟也算是一種匹配的“野路子”,但我還是建議大家不要使用混合匹配!逐期匹配逐期匹配是在面板數(shù)據(jù)的每期截面上都進行一次匹配。逐期匹配能夠較好地解決“時間錯配”問題,但這種匹配方案也存在缺陷——對照組的不穩(wěn)定性(逐期匹配不能為DID模型篩選到穩(wěn)定的對照組,處理組個體i 在每期的匹配對象可能均不相同,混合匹配當然也存在這一問題)。對于同一個處理組個體,其對照對象如果在政策時點前后發(fā)生較大改變,將會導(dǎo)致個體固定效應(yīng)的估計出現(xiàn)偏差,進而影響到DID模型的穩(wěn)定性。除此之外,逐期匹配存在著其他問題,大家有興趣可以去閱讀《傳統(tǒng)PSM-DID模型的改進與應(yīng)用》這篇論文。
|