基礎(chǔ)方法 | 用Stata完成量化論文全流程示例！附超詳細(xì)do文件

湖經(jīng)松哥 2022-06-14 發(fā)布于湖北

展開全文

Method

量化研究已經(jīng)逐漸成為社會(huì)科學(xué)研究的主流，其重要地位無(wú)需贅述。

好的選題+嚴(yán)謹(jǐn)?shù)哪Ｐ?熟練的軟件操作=一篇好的論文

對(duì)于Stata的操作而言，市場(chǎng)上的書籍、課程等琳瑯滿目，而本文側(cè)重于如何使用Stata完成一篇量化論文的數(shù)據(jù)處理，滿滿的干貨，相信各位讀者尤其是初學(xué)者如果能夠操作一遍，一定會(huì)對(duì)Stata的運(yùn)用有所掌握。

本文從數(shù)據(jù)清理、描述性統(tǒng)計(jì)、循環(huán)命令的使用、雙變量分析、因子分析、線性回歸、Logistic回歸、表格輸出等方面詳細(xì)地介紹Stata的使用。

跑一個(gè)模型對(duì)于看似十分簡(jiǎn)單，的確也十分簡(jiǎn)單，只需要一行命令，但是“跑模型”的功夫盡在“模型”前。

在這里，我們利用CGSS2015數(shù)據(jù)，假定來(lái)研究“錢能買來(lái)快樂(lè)嗎？”即收入對(duì)主觀幸福感的影響

01 打開數(shù)據(jù)

方法1：通過(guò)命令方式

use 'D: cgss2015_14.dta', clear

方法2：窗口點(diǎn)擊（更推薦，不用寫路徑）

點(diǎn)擊菜單欄第一個(gè)文件夾的標(biāo)志，然后打開數(shù)據(jù)

點(diǎn)擊后會(huì)在屏幕上出現(xiàn)一行命令，可以將其復(fù)制到do文件中，便于下次使用

02 查看數(shù)據(jù)/變量

例如：我們最關(guān)心的兩個(gè)變量一個(gè)是收入，一個(gè)是主觀幸福感，我們可以先查看一下變量的基本情況

tab a36

sum a8a

03 數(shù)據(jù)/變量管理

熟悉stata或者是量化研究處理流程的讀者可能清楚，跑一個(gè)模型可能在這一步需要花費(fèi)很大的力氣，在這里我們將詳細(xì)地來(lái)進(jìn)行操作示范

*幾個(gè)常用命令：gen recode rename replace

*Part ONE 基本人口學(xué)變量處理

社會(huì)科學(xué)的研究中基本人口學(xué)變量是必不可少的，本部分的命令也可以復(fù)制到以后的其他研究中使用，事半功倍！

*性別

gen gender=a2 //生成一個(gè)新變量gender，gender這個(gè)變量就是原來(lái)的a2變量

*年齡

gen age=2015-a301 //生成一個(gè)新變量age，這個(gè)變量為2015減去出生年

*民族

gen nation=a4

replace nation=. if nation<0 //在stata中用.或者空格來(lái)表示缺失值，這樣軟件就能識(shí)別出，否則將會(huì)代入計(jì)算

recode nation (1=1 '漢族')(else=0 '少數(shù)民族'),gen(newnation)

*教育程度

gen edu=a7a

replace edu=. if edu<0

recode edu(1 2 3=1 '小學(xué)及以下')(4=2 '初中')(5 6 7 8=3 '高中（專）')(else=4 '大專及以上'),gen(newedu)

*政治面貌

gen party=0

replace party=1 if a10==4

replace party=. if a10<0

*戶口

gen hukou= a18

recode hukou (1=0 '農(nóng)業(yè)戶口')(7=. )(else=1 '非農(nóng)戶口'),gen(urban) //將沒(méi)有戶口處理為缺失值

global population gender age newnation newedu party urban

/*定義全局宏，用處就是將上述所有人口學(xué)變量定義為population，在接下來(lái)的回歸時(shí)就不

需要每個(gè)變量都敲一遍，通過(guò)輸入$population就可以*/

*PART TWO 自變量處理

*我們的研究問(wèn)題是：錢能不能買來(lái)快樂(lè)？我們用個(gè)人全年總收入測(cè)量“錢”，相關(guān)處理如下：

gen income=a8a

replace income=. if income<0

/*在回歸分析中有一個(gè)重要的假定，就是變量要服從正態(tài)分布，我們可以通過(guò)直方圖的形式

來(lái)觀察變量是否服從正太分布，具體命令如下：*/

hist income, percent normal title('收入分布')

/*做完圖之后我們發(fā)現(xiàn)，收入這個(gè)變量呈現(xiàn)明顯的左偏的分布態(tài)勢(shì)，根據(jù)統(tǒng)計(jì)學(xué)原理，

針對(duì)左偏的變量我們一般采用取對(duì)數(shù)的形式來(lái)糾正，命令如下：*/

gen lnincome=log(income+1)

/*生成收入對(duì)數(shù)變量，選擇收入+1的原因是，對(duì)數(shù)運(yùn)算的數(shù)學(xué)原理中不允許出現(xiàn)0，而收入

變量中有0值，為了讓這些0收入的樣本進(jìn)入，我們將其+1，這也不會(huì)對(duì)最后的結(jié)果產(chǎn)生較大影響*/

hist lnincome, percent normal title('收入對(duì)數(shù)分布') //調(diào)整之后收入對(duì)數(shù)是符合正態(tài)分布的

*PART THREE 因變量處理

*我們的研究問(wèn)題是：錢能不能買來(lái)快樂(lè)？我們用主觀幸福感測(cè)量“快樂(lè)”，相關(guān)處理如下：

gen happy=a36

replace happy=. if happy<0

*PART FOUR 控制變量

在研究中除了要控制基本的人口學(xué)變量之外，還要控制一些混雜因素，正常情況下，控制變量的選擇要依照理論，這里僅為了方法上的展示，我們擬控制如下變量：個(gè)人能力和社會(huì)階層這兩個(gè)變量

*個(gè)人能力

/*我們擬采用CGSS問(wèn)卷中的：您覺(jué)得自己的以下能力是什么水平？（問(wèn)卷P11）進(jìn)行測(cè)量

主要包括四個(gè)方面：聽普通話、說(shuō)普通話、聽英語(yǔ)、說(shuō)英語(yǔ)等能力，對(duì)于這四個(gè)題目我們

可以通過(guò)一個(gè)循環(huán)命令來(lái)解決，不需要繁瑣的寫很多命令，具體如下：*/

forvalue i=49/52{

replace a`i'=. if a`i'<0

}

另外的一個(gè)問(wèn)題，如果我們把這四個(gè)問(wèn)題都放入模型會(huì)產(chǎn)生嚴(yán)重的多重共線性問(wèn)題，

為了避免這一問(wèn)題，我們可以用因子分析的方法解決，具體如下：

factor a49-a52

rotate

predict f1

rename f1 ability //將f1這個(gè)因子得分變量重命名為ability

*社會(huì)階層

gen

replace class=. if class<0

global var class ability

04 回歸分析

*PART ONE 一般線性回歸

reg happy lnincome //reg是線性回歸的命令，后面第一個(gè)變量是因變量，其余順序無(wú)要求

reg happy lnincome $population $var //人口學(xué)變量和控制變量均利用全局宏簡(jiǎn)寫

*PART TWO Logistic回歸

ologit happy income //ologit是序次logistic回歸的命令，后面第一個(gè)變量是因變量，其余順序無(wú)要求

ologit happy income $population $var

可以看出，回歸分析只是一行命令而已，真正的工作是在第三步：數(shù)據(jù)/變量管理中

05 表格輸出

經(jīng)過(guò)一些列的數(shù)據(jù)分析后，到底如何將結(jié)果變成可以直接貼在論文的圖表呢？

在這里介紹幾個(gè)命令，可以將描述性統(tǒng)計(jì)以及回歸分析的表格直接輸入到word中。

*PART ONE 描述性表格輸出

ssc install asdoc, replace //安裝外部命令，用于表格輸出

asdoc sum income lnincome happy $population $var, ///

stat(N mean sd p25 p75) fs(12) dec(2) ///

save(summary1.doc)

stat表示需要輸出的描述性統(tǒng)計(jì)變量，具體而言，

stat(N mean sd p25 p75) 表示輸出的統(tǒng)計(jì)變量為樣本數(shù)、算術(shù)平均數(shù)、標(biāo)準(zhǔn)差、t 值、1% 分位數(shù)、99% 分位數(shù)，fs(#) 為 Font size 的縮寫，表示字號(hào)大小為 # 鎊，dec(#) 為 Decimal points 的縮寫，表示輸出結(jié)果保留到小數(shù)點(diǎn)后 # 位

輸出的結(jié)果如下圖：

/*以下命令只能用于Stata15.0以上版本

ssc install sum2docx,replace

sum2docx income lnincome happy $population $var ///

using table1.docx,append obs mean(%9.2f) ///

sd min(%9.0g) median(%9.0g) max(%9.0g) ///

title('表1：描述性統(tǒng)計(jì)')

shellout table1.docx

*PART TWO 回歸表格輸出

*方法一：利用outreg2命令

ssc install outreg2,replace //安裝外部命令，用于表格輸出

reg happy lnincome

est sto m1 //將這個(gè)模型保存為m1

reg happy lnincome $population $var

est sto m2 //將這個(gè)模型保存為m2

outreg2 [m1 m2] using 'd:\', excel dec(3) alpha(0.001, 0.01, 0.05)

/*將m1和m2共同輸出到表格中，保存到d盤，dec（3）指保留三位小數(shù)，alpaha（）指顯著性水平*/

*方法二：

findit ettab

reg happy lnincome

est sto m1 //將這個(gè)模型保存為m1

reg happy lnincome $population $var

est sto m2 //將這個(gè)模型保存為m2

esttab m1 m2 using result.rtf,se r2 mtitle star(+ 0.1 * 0.05 ** 0.01)
/*m1和m2共同輸出到表格中，輸出包括標(biāo)準(zhǔn)誤，r平方，和顯著性水平,保存位置為當(dāng)前cd的位置*/

·END·

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：湖經(jīng)松哥 > 《10論文寫作》

舉報(bào)/認(rèn)領(lǐng)