學(xué)不透的計(jì)量經(jīng)濟(jì)學(xué)

liyu_sun 2020-07-17

展開全文

問題1 by hahahoby 發(fā)表于 2020-7-1 07:55:5

趙老師您好，最近在用合成控制法做研究，有一個(gè)不太會(huì)，在安慰劑檢驗(yàn)中不少人用等間距方法進(jìn)行隨機(jī)抽樣作為檢驗(yàn)組，請(qǐng)問相應(yīng)的STATA命令該如何寫，包括工業(yè)經(jīng)濟(jì)程序包里面都回避掉了這個(gè)問題，如劉乃全，吳友（2017）；李順毅（2018）以中國285個(gè)地級(jí)市作為樣本，設(shè)定等間距為4進(jìn)行隨機(jī)抽樣，然后隨機(jī)選取46個(gè)作為控制組，之后又剔除掉了平均標(biāo)準(zhǔn)差較大的樣本這個(gè)用stata 命令如何表示？先抽樣再剔除和先剔除再抽樣有區(qū)別嗎？我自己也仿照做了一個(gè)285的城市的安慰劑檢驗(yàn)，但是在畫圖部分遇到了麻煩，一共刪除掉大于2倍差異的140多個(gè)城市，我看原來的命令都是以省為單位然后再把刪除掉的省份連接起來，作圖比較簡(jiǎn)單，我這樣的情況如何畫圖？

答：合成控制法的統(tǒng)計(jì)檢驗(yàn)主要是隨機(jī)置換檢驗(yàn)(permutation test)，實(shí)際是一種placebo test，簡(jiǎn)單的說，就是假設(shè)我從控制組中隨機(jī)抽一個(gè)作為偽干預(yù)個(gè)體，然后利用合成控制的方法，估計(jì)出干預(yù)效應(yīng)，每一個(gè)控制組個(gè)體都這樣做，我們就可以得到一個(gè)干預(yù)效應(yīng)的估計(jì)量的分布，我們現(xiàn)在看你實(shí)際估計(jì)的干預(yù)效應(yīng)在這個(gè)分布中的位置（注意，你這個(gè)分布是沒有干預(yù)的情況下估計(jì)出的分布，因?yàn)槟阌玫氖强刂平M個(gè)體作為一個(gè)虛擬的干預(yù)個(gè)體），如果處于中間位置，那就不顯著，說明干預(yù)沒有作用的可能性很大，如果在極端位置，那就證明顯著了。這個(gè)實(shí)際上是就是Fisher的精確P檢驗(yàn)方法在合成控制方法下的應(yīng)用。

比如我們以Abadie et al.(2010)文中加州控?zé)煹慕?jīng)典例子，作者用38個(gè)州作為加州潛在的控制組，估計(jì)出合成加州，從而得到加州控?zé)煼ò傅挠绊?。在進(jìn)行假設(shè)檢驗(yàn)的時(shí)候，分別用38個(gè)控制州作為偽干預(yù)州，其余州作為控制州，進(jìn)行同樣的合成，從而可以得到偽干預(yù)州的因果效應(yīng)，而這些州事實(shí)上沒有任何政策干預(yù)，因而，得到的因果效應(yīng)路徑反映的就是沒有干預(yù)時(shí)，可能看到的分布。因?yàn)?，在進(jìn)行合成時(shí)，是利用干預(yù)前的數(shù)據(jù)進(jìn)行合成的，有些州合成的效應(yīng)會(huì)比較差，即事前合成的與實(shí)際的有較大的偏差，作者是事前的均方預(yù)測(cè)誤差（MSPE）在作為判斷依據(jù)，它越小，說明事前擬合的越好，事前擬合的好，我們才能對(duì)事后預(yù)測(cè)有比較大的信息。為此，作者通過限制MSPE不超過加州MSPE的多少倍來進(jìn)行控制，比如作者通過限制偽干預(yù)州MSPE不超過加州的MPSE的20倍、10倍、5倍、2倍等，作者畫出了相應(yīng)的圖形（有興趣的讀者可查原文），下圖我將MSPE限制為加州的2倍對(duì)應(yīng)的圖，此時(shí)，只保留了13個(gè)控制州，事前擬合的比較好，即事前干預(yù)效應(yīng)基本接近于零。事后，可以看到加州是在最邊界上，從而證明加州的效應(yīng)是顯著的，不是隨機(jī)產(chǎn)生的。

除此之外，Abadie還提出構(gòu)造一個(gè)事后事前MSPE的比值作為一個(gè)統(tǒng)計(jì)量，進(jìn)行隨機(jī)置換檢驗(yàn)?；镜倪壿嬍牵绻麤]有干預(yù)影響，那么事前事后的波動(dòng)性應(yīng)該差別不大，如果有顯著影響，那么事后的波動(dòng)將比事前有顯著變動(dòng)。我稱該統(tǒng)計(jì)量為Adadie-R統(tǒng)計(jì)量，R表示ratio，是事后事前MPSE的比值（也可以用均方根預(yù)測(cè)誤差RMPSE比）。利用Abadie-R統(tǒng)計(jì)量，估計(jì)出的統(tǒng)計(jì)量分布如下圖，可以看出加州是在最右邊的，從而證明加州的因果效應(yīng)是顯著的，不是隨機(jī)的。

程序

畫安慰劑檢驗(yàn)圖需要通過編程實(shí)現(xiàn)，現(xiàn)提供我編寫的一個(gè)程序，供大家參考。它可以產(chǎn)生上面的兩幅圖。


*======================================
*合成控制法假設(shè)檢驗(yàn)(Placebo test and draw graph)*
*======================================
set more off
use smoking,clear
tsset state year
* 獲取一些后文要用的參數(shù)
qui tab state
local n = r(r) // 州數(shù)
qui tab year
local n_year = r(r) // 年份數(shù)

*======================================
*根據(jù)個(gè)人研究需要，調(diào)整這些參數(shù)
*======================================
local date_t = '1989' // 干預(yù)時(shí)間點(diǎn)
local m = 2 // 限制MSPE為干預(yù)州MSPE的m倍，m=0表示無限制
*local slow = 'nested' // 取消*使用nested選項(xiàng)，計(jì)算量大，擬合更好
local id_t=3 // 干預(yù)州的id或行號(hào)
local treat_name ='California' // 圖中顯示的干預(yù)組名稱
local ctrl_name='Control States' // 圖中顯示的控制組名稱
local xtitle 'year' // 橫軸變量名稱
local ytitle 'gap in per-capita cigarette sales (in packs)' //縱軸變量名稱
local saving 'syn_plot' //保存安慰劑檢驗(yàn)圖
*======================================

tempname resmat

forvalues i=1/`n' {		
synth cigsale beer lnincome retprice age15to24 cigsale(1988) cigsale(1980) cigsale(1975) , ///
 trunit(`i') trperiod(`date_t') xperiod(1980(1)1988) `slow' keep(tmp`i', replace) 
 //上述循環(huán)命令分別對(duì)所有州作為干預(yù)組進(jìn)行合成, tmp`I'.dta保存合成結(jié)果
local rmspe = e(RMSPE)[1,1] //取RMSPE
 
 use tmp`i',clear
 keep _Y_treated _Y_synthetic _time
 gen te = _Y_treated- _Y_synthetic 
 gen id = `i'
 keep in 1/`n_year' //1970-2000, there are 31 years, which is keep in the first 31 obs.
 gen te2 = te*te // use it to calculate MSPE
 local n_before = `date_t' - _time[1] //取干預(yù)期之前對(duì)應(yīng)位置或序號(hào)
 local n_after = `n_before' + 1 //干預(yù)期起點(diǎn)
 qui sum te2 in 1/`n_before' // MSPE
 local mspe_pre = r(mean) // 干預(yù)前的MSPE 
 qui sum te2 in `n_after'/`n_year'
 local mspe_post = r(mean) // 干預(yù)后的MSPE 
 local r = `mspe_post'/`mspe_pre' //計(jì)算Abadie-R統(tǒng)計(jì)量
 
 matrix `resmat' = nullmat(`resmat')\(`rmspe', `mspe_pre', `mspe_post', `r') //resmat saves the RMSPE for each model
 local names `'`names'`'`i''''' // names of each

 save tmp`i', replace
 
use smoking,clear
tsset state year
}
	mat colnames `resmat' = 'RMSPE'  'MSPE_pre' 'MSPE_post' 'Abadie_R'
	mat rownames `resmat' = `names'
	matlist `resmat', row('Treated Unit')

*Placebo Graphs - Draw Figure 3
*Get the RMSPE of the treated unit

local RMSPE_t=`resmat'[`id_t',1]
use tmp1, clear
local num = 0 // # of units includes in the graph
forvalues i=2/`n' {
	if `m'==0 {
		append using tmp`i'
		local num = `num' + 1
	}
	else if `resmat'[`i',1]^2<=`m'*`RMSPE_t'^2 { // MSPE comparation
		append using tmp`i'
		local num = `num' + 1
	}
}


*======================================
*畫安慰劑圖1

local s='' // string to store the graph command
local controls = '' //string to store the id of control units used
local num_t = `num'+1 // # postion to identify the treated unit

levelsof id, local(levels)
foreach l of local levels {
	if `l'!=`id_t' {
	local s = '`s''+'(line te _time if id==`l', lc(gs13))'
	local controls = '`controls''+' '+'`l''
	}
}

local date_before = `date_t'-1
two `s'(line te _time if id==`id_t', lc(black)), ///
legend(order(`num_t' '`treat_name'' `num' '`ctrl_name'') cols(1) pos(11) ring(0)) xline(`date_before', lp(dot) lc(black)) yline(0, lp(dash) lc(black)) ///
 xlabel(1970(5)2000) xtitle('`xtitle'') ytitle('`ytitle'') saving(`saving'_`m', replace) 

di '# of controls after limit `m' times of RMSPE of treated unit: ' `num' //顯示保留的控制組數(shù)量
di 'ID of controls:' '`controls'' //顯示保留的控制組id或序號(hào)


*======================================
*畫出Abadie-R統(tǒng)計(jì)量分布圖，Abadie et al. (2010)
*======================================
clear
svmat `resmat', names(col)
save tmp_R, replace //unstar this line if you want to save the file 

histogram Abadie_R, freq width(1) text(1 77 'California {&rarr}', placement(s)) xtitle('post/pre-Proposition 99 mean squared prediction error')


*======================================
*刪除所有臨時(shí)文件
!del tmp* 

set more on
exit

更詳細(xì)的介紹可以參考本人編寫的教材MUSE，另推薦你讀一下Abadie 2020發(fā)在JEL上綜述性文章Using synthetic controls: feasibility, data requirements, and methodological aspects，這是SCM的創(chuàng)立者Abadie講的如何使用SCM方法。

你找到的方法，還是挺奇怪的做法，沒什么道理，估計(jì)是作者為了減少控制組樣本進(jìn)行的處理，不建議參考。

問題2 by paulwong 發(fā)表于 2020-7-2 15:07:20

趙老師好，請(qǐng)教2個(gè)問題：（1）面板數(shù)據(jù)固定效應(yīng)回歸時(shí)，在控制個(gè)體效應(yīng)和時(shí)間效應(yīng)的前提下，有研究同時(shí)控制行業(yè)、區(qū)域效應(yīng)，請(qǐng)問會(huì)不會(huì)造成潛在的多重共線性問題？（2）測(cè)試變量X1為內(nèi)生變量、對(duì)應(yīng)工具變量為Z1，但右手變量同時(shí)含有X1X2（假定X2為外生），我看到有帖子說，將工具變量選取為(Z1, Z1X2)——如果實(shí)施2SLS，第一階段難道以Z1*X2為左手變量嗎？如果這樣，匯報(bào)結(jié)果何以解釋？感覺沒有明顯的經(jīng)濟(jì)含義。謝謝您撥冗指導(dǎo)。

答：不好意思，漏掉你的問題。

(1)個(gè)體效應(yīng)都控制了，行業(yè)效應(yīng)應(yīng)該是加不進(jìn)去的，因?yàn)橛肍E方法時(shí)，進(jìn)行demean的時(shí)候，不隨時(shí)間變化的量都會(huì)demean掉，所以你若控制了個(gè)體效應(yīng)，那不可能再控制行業(yè)固定效應(yīng)的，區(qū)域效應(yīng)也是一樣。若相加入這些固定效應(yīng)，必須通過其他方式，比如與時(shí)間趨勢(shì)交乘，從而控制不同行業(yè)的不同時(shí)間趨勢(shì)等。

(2)這是個(gè)好問題。我再把你的問題更具體化一些，結(jié)構(gòu)模型為

內(nèi)生，外生，我們關(guān)心對(duì)的因果影響，是的工具，如何估計(jì)該模型？

根據(jù)結(jié)構(gòu)模型，我們可以畫出大概的因果圖，是外生變量，它也是混雜因素，同時(shí)與相關(guān)，也同時(shí)影響，因?yàn)榻Y(jié)構(gòu)模型中有交互項(xiàng)，說明對(duì)的影響會(huì)隨的不同而變化，或者說對(duì)的影響具有異質(zhì)性，隨的變化而變化，是一個(gè)調(diào)節(jié)變量或effect modifier。

這種情況下，我們主要關(guān)心對(duì)的影響，是分層變量。

所以，第一種最直觀的方法，是根據(jù)進(jìn)行分層，或著說，我們固定的值，假設(shè)為離散值，則我們可以根據(jù)分組，比如對(duì)于的一組個(gè)體而言，結(jié)構(gòu)方程現(xiàn)在為

是的工具變量，因而，對(duì)于的一組群體而言，我們可以用IV估計(jì)出對(duì)的因果影響。得到的IV估計(jì)系數(shù)記為，它表示的的一組人，對(duì)的影響程度。

如果我們想的不是這一異質(zhì)性影響，而是想要加總的影響，即根據(jù)X2的分布進(jìn)行加權(quán)平均就好了，即，若為連續(xù)則用積分。

這種處理是理解起來比較明確一些的，比較清晰的。但大家一般不這樣做，大家其實(shí)是按你說的方法來做的。你說的方法也是具有一定的合理性的。

你說的方法是將和看作兩個(gè)內(nèi)生變量，將和看作是工具變量，那么，第一階段有兩個(gè)方程

(既然結(jié)構(gòu)方程X1、X2有交互影響，那么X2和Z有交互影響也是合理的，當(dāng)然你也可以假設(shè)沒有，但實(shí)際上你用Stata的ivregress估計(jì)命令，就是相當(dāng)于上面的簡(jiǎn)化式模型），另一個(gè)是

或者簡(jiǎn)單的寫成 , 。

代入結(jié)構(gòu)式，則有

根據(jù)線性回歸性質(zhì)(5.9)(參見MUSE第5章）， , 與正交，而, 均可看作是, , 的線性組合，它們是外生變量，從而獨(dú)立于，因而，現(xiàn)在上式中復(fù)合的誤差項(xiàng)是與前面的解釋變量正交的，因而估計(jì)可以得到一致的估計(jì)。這樣，你想要的結(jié)構(gòu)系數(shù), , 都可以一致的估計(jì)出來，得到的對(duì)的因果影響就是。

當(dāng)然，在上面的估計(jì)中，第一階段的第二個(gè)式子中，其實(shí)經(jīng)濟(jì)含義不好解釋，事實(shí)上，在IV估計(jì)中，第一階段并不要求有經(jīng)濟(jì)內(nèi)涵，它反映的主要是相關(guān)性（有時(shí)是有經(jīng)濟(jì)解釋的），因而沒有經(jīng)濟(jì)含義一點(diǎn)關(guān)系都沒有，IV關(guān)系的實(shí)際上就是第二階段給出因果效應(yīng)的解釋。這也是為什么近年來有人利用機(jī)器學(xué)習(xí)的方法估計(jì)IV的第一階段的原因，因?yàn)榈谝浑A段實(shí)際上是一個(gè)預(yù)測(cè)問題，不涉及因果推斷問題，預(yù)測(cè)的越好，越有利于第二階段的因果效應(yīng)估計(jì)。

希望上述解釋能夠回答你的問題。

計(jì)量經(jīng)濟(jì)學(xué)教材推薦

這次訪談中，有很多問題是問如何學(xué)習(xí)計(jì)量經(jīng)濟(jì)學(xué)的，以及讓推薦學(xué)習(xí)教材的。我在這里簡(jiǎn)單談一下我的想法，算是對(duì)前面訪談的小結(jié)吧。

我想計(jì)量經(jīng)濟(jì)學(xué)的學(xué)習(xí)可以分成兩個(gè)層面，因果推斷和統(tǒng)計(jì)推斷。因果推斷是基礎(chǔ)，只有明白了因果推斷，才能了解計(jì)量經(jīng)濟(jì)學(xué)的作用。而統(tǒng)計(jì)推斷討論的是如何利用樣本信息估計(jì)總體信息的問題，是目前各高校計(jì)量經(jīng)濟(jì)學(xué)教學(xué)中投入比較多的部分。但是，由于缺乏對(duì)因果推斷基本知識(shí)的了解，學(xué)生學(xué)完之后，往往仍然很茫然，只知道用數(shù)據(jù)跑回歸，不知識(shí)如何解決問題，如何回答經(jīng)濟(jì)學(xué)研究的問題。經(jīng)濟(jì)學(xué)及其他學(xué)科的研究目的都是為了發(fā)現(xiàn)規(guī)律，回答“為什么”的問題，即因果問題。因而，我們首先要知道如何回答因果問題，懂得如何進(jìn)行因果推斷之后，才能理解利用樣本信息去估計(jì)總體信息的問題。這時(shí)，在利用回歸方法的時(shí)候，學(xué)生才能有目的性，更明確“為什么”的問題。因而，我認(rèn)為計(jì)量經(jīng)濟(jì)學(xué)的學(xué)習(xí)應(yīng)該分成兩個(gè)部分：一是因果推斷，二是統(tǒng)計(jì)推斷。

目前還沒有完全符合這一邏輯的計(jì)量經(jīng)濟(jì)學(xué)教材，因果推斷和統(tǒng)計(jì)推斷仍然基本上是分開的，因而，下面的推薦是基于目前市面上流行的計(jì)量經(jīng)濟(jì)學(xué)教科書，適用的對(duì)象主要是本科生、研究生或準(zhǔn)備學(xué)習(xí)計(jì)量經(jīng)濟(jì)學(xué)的科研人員。

因果推斷：引入潛在結(jié)果，與傳統(tǒng)計(jì)量的最大差別在于對(duì)潛在結(jié)果建模，而不是對(duì)觀測(cè)結(jié)果建模

MUSE。王婆賣瓜，推薦我編寫的《基本有用的計(jì)量經(jīng)濟(jì)學(xué)》（MUSE），原因是它比較簡(jiǎn)單，本科生基本都能看懂，并且本書傳遞理念很簡(jiǎn)單，經(jīng)濟(jì)學(xué)實(shí)證中的基本識(shí)別策略就是模擬隨機(jī)化實(shí)驗(yàn)，因而，搞明白為什么隨機(jī)化實(shí)驗(yàn)是因果推斷的金標(biāo)準(zhǔn)，也就基本上明白了因果推斷的基本原理。學(xué)會(huì)如何分析隨機(jī)化實(shí)驗(yàn)數(shù)據(jù)，也就知道如何分析觀測(cè)研究的實(shí)證分析。本書引入Rubin因果模型，講明白如何定義因果。講解隨機(jī)化實(shí)驗(yàn)，搞清楚隨機(jī)化實(shí)驗(yàn)如何識(shí)別因果。引入因果圖，將經(jīng)濟(jì)學(xué)實(shí)證分析中的遇的兩種可能偏差——混雜偏差、樣本選擇偏差——直觀的揭示出來。并隨后介紹了經(jīng)濟(jì)學(xué)實(shí)證分析中常用的模擬隨機(jī)化實(shí)驗(yàn)的設(shè)計(jì)方法。
有基礎(chǔ)之后，可以學(xué)習(xí)Imbens and Rubin (2015)的Introduction to causal inference， Angrist and Pishcke (2009) Mostly Harmless Econometrics(MHE)，但是MHE需要有統(tǒng)計(jì)推斷的知識(shí)，所以看MHE之前最好對(duì)統(tǒng)計(jì)推斷或傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)的理論有所了解。

統(tǒng)計(jì)推斷：對(duì)傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)學(xué)習(xí)（主要內(nèi)容是參數(shù)估計(jì)和假設(shè)檢驗(yàn)）

經(jīng)典的兩本教材是Wooldridge的Introductory econometrics: A modern approach，和Stock and Watson的Introduction to econometrics，中文都叫《計(jì)量經(jīng)濟(jì)學(xué)入門》，它們的內(nèi)容均包括基本的經(jīng)典線性回歸模型、時(shí)間序列模型、工具變量法等，Stock and Watson還引入了關(guān)于實(shí)驗(yàn)和自然實(shí)驗(yàn)以及大數(shù)據(jù)和機(jī)器學(xué)習(xí)的介紹，相對(duì)更新一些。對(duì)于做實(shí)證分析的應(yīng)用學(xué)者而言，這兩本的內(nèi)容就差不多了，盡管一般把它們看作本科生教材。
更高級(jí)一些的經(jīng)典教材有Hayashi (2000), Econometrics, Wooldridge (2010), Econometric analysis of cross section and panel data，微觀計(jì)量經(jīng)濟(jì)學(xué)Cameron and Trivedi (2005) Microeconometrics: Methods and applications
另外，網(wǎng)上還有Wisconsin 大學(xué)Bruce Hansen的Econometrics也不錯(cuò)，是Wisconsin大學(xué)PHD一年級(jí)的講義，還沒有完成，也可以參考。(https://www.ssc./~bhansen/econometrics/)

參考書不用太多，找一到兩本把它們讀透就可以了。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： liyu_sun > 《計(jì)量》

舉報(bào)/認(rèn)領(lǐng)