實(shí)操：通過SEER數(shù)據(jù)庫發(fā)一篇SCI系列（五）

大壯歌 2019-09-08

展開全文

最近科室上級(jí)老師發(fā)了一張圖片給我，想要激勵(lì)我努力學(xué)習(xí)。我一看，光榮榜，四川大學(xué)華西臨床醫(yī)學(xué)院的兩位今年畢業(yè)的8年制博士，估計(jì)也就26歲吧。

再仔細(xì)一看，媽呀，每個(gè)人讀書期間都發(fā)了30-40篇SCI了，還有一堆獎(jiǎng)學(xué)金和學(xué)術(shù)頭銜。還好自己不再那么年輕，要是在當(dāng)年，我還不得熬夜幾天幾夜，來研究如何發(fā)SCI，然后，然后無功而返，就放棄了。。

現(xiàn)在隨著年齡的增長(zhǎng)，心態(tài)也要平和很多，這種心態(tài)變化并不是一件好事，喪失了年輕時(shí)的那般激情。盡管我現(xiàn)在還沒有一篇SCI，但我心里想哇，跟隨自己的內(nèi)心，按部就班的把事情做好，可能速度要慢一點(diǎn)。別人再怎么厲害，跟我沒關(guān)系，我要做的就是每周都能看到自己在進(jìn)步，這就夠了。

感慨完了，那就開始總結(jié)吧。

打開STATA并導(dǎo)入EXCEL數(shù)據(jù)

本周的收獲是關(guān)于處理從SEER數(shù)據(jù)庫里下載的數(shù)據(jù)，利用STATA軟件來對(duì)數(shù)據(jù)處理。前面一篇是關(guān)于EXCEL來處理數(shù)據(jù)，發(fā)現(xiàn)雖然上手快，但速度要慢一點(diǎn)；而用STATA上手稍慢點(diǎn)，但處理速度要快得多，而且很簡(jiǎn)潔。關(guān)于STATA安裝問題，在百度下搜索，下載無腦安裝就可以了。

打開STATA，頁面如下：

拿我們上周從數(shù)據(jù)庫里下載的數(shù)據(jù)來舉例。

我們需要將以上EXCEL表導(dǎo)入STATA中，步驟如下：

以上圖片顯示EXCEL導(dǎo)入成功。

STATA處理數(shù)據(jù)

我們的目標(biāo)時(shí)將EXCEL里的性別、種族、分化程度、T分期、N分期、M分期六個(gè)變量全部用數(shù)字代替，并且刪除一些無效數(shù)據(jù)。

例如第一個(gè)變量，Sex，用'1'表示'Male'，用'2'表示'Female'，用STATA操作，以下是編寫命令的過程：

第一步：輸入以下命令

gen gender =9

這里的意思是在STATA里生成一個(gè)新的變量，并將所有患者默認(rèn)值為9，在SEER數(shù)據(jù)庫里“9”代表未知的意思。（備注：以上命令包括以下所有命令中的符號(hào)是全英文下的狀態(tài)，不會(huì)軟件運(yùn)行會(huì)報(bào)錯(cuò)。）

第二步：然后再輸入以下命令

replace gender =1 if strmatch(Sex, '*Male*')

replace gender =2 if strmatch(Sex, '*Female*')

意思就是抓取Sex里的'Male'、'Female'字眼，并分別將他們賦值為:'1'、'2'保存到之前生成的gender的變量里面。

如圖所示，連個(gè)命令可以同時(shí)輸入，再enter

打開中間靠右的Data Browser，將表格拖到最右邊，如下圖。

這里的gender數(shù)值意義就是將Sex里的'Male'、'Female'全部用'1'、'2'表示，一步到位，避免EXCEL的篩選步驟的繁瑣。

第二個(gè)變量，race，我們用'1'表示'White'，用'2'表示'Black'，用'3'表示'Other'，

同樣，首先生成一個(gè)新的變量：

gen race =9

然后再輸入以下命令

replace race=1 if strmatch(RacerecodeWhiteBlackOther, '*White*')

replace race=2 if strmatch(RacerecodeWhiteBlackOther, '*Black*')

replace race=3 if strmatch(RacerecodeWhiteBlackOther, '*Other*')

如下圖所示：

race下面的'1'、'2'、'3'分別代表'White'、'Black'、'Other'

我們可以觀察下這個(gè)race下面的數(shù)據(jù)分布情況，

輸入命令：tab race 如下圖。

從這里我們可以看到各個(gè)種族的例數(shù)及比例分布，其中的'9'還有129例代表的是'unknown'，我們可以一個(gè)命令（drop if race ==9）就可以把這129例患者資料刪除，如下圖。

STATA還有一個(gè)最大的厲害之處就是我們處理數(shù)據(jù)之前，可以把我們要處理的變量在TXT文檔里把全部命令寫好，然后在粘貼復(fù)制到STATA里，一秒鐘處理全部數(shù)據(jù)，比上一系列文章中的EXCEL處理快太多。

再在Data Browser里查看，如下圖。

再?gòu)腟TATA里將處理完的數(shù)據(jù)全部導(dǎo)出至EXCEL里，同導(dǎo)入方式，導(dǎo)出結(jié)果如下圖。

這就是利用STATA高效處理數(shù)據(jù)全過程。

記得一句話“快就是慢，慢就是快”，對(duì)于數(shù)據(jù)的處理，利用EXCEL和STATA處理數(shù)據(jù)看個(gè)人選擇，經(jīng)過我自己親自實(shí)操的感受來看，我認(rèn)為STATA要好太多。如果誰需要相關(guān)命令的模版，私信我。

用了5個(gè)系列將SEER數(shù)據(jù)庫從入門到提取數(shù)據(jù)，再到處理數(shù)據(jù)，接下來我會(huì)繼續(xù)研究關(guān)于數(shù)據(jù)分析這塊，距離發(fā)一篇SCI又近了一步，哈哈。

累了，渴了，來碗毒雞湯：你必須不停地奔跑，才能留在原地。

———— e n d ————

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：大壯歌 > 《SEER》

舉報(bào)/認(rèn)領(lǐng)