最近科室上級(jí)老師發(fā)了一張圖片給我,想要激勵(lì)我努力學(xué)習(xí)。我一看,光榮榜,四川大學(xué)華西臨床醫(yī)學(xué)院的兩位今年畢業(yè)的8年制博士,估計(jì)也就26歲吧。 再仔細(xì)一看,媽呀,每個(gè)人讀書期間都發(fā)了30-40篇SCI了,還有一堆獎(jiǎng)學(xué)金和學(xué)術(shù)頭銜。還好自己不再那么年輕,要是在當(dāng)年,我還不得熬夜幾天幾夜,來研究如何發(fā)SCI,然后,然后無功而返,就放棄了。。 現(xiàn)在隨著年齡的增長(zhǎng),心態(tài)也要平和很多,這種心態(tài)變化并不是一件好事,喪失了年輕時(shí)的那般激情。盡管我現(xiàn)在還沒有一篇SCI,但我心里想哇,跟隨自己的內(nèi)心,按部就班的把事情做好,可能速度要慢一點(diǎn)。別人再怎么厲害,跟我沒關(guān)系,我要做的就是每周都能看到自己在進(jìn)步,這就夠了。 感慨完了,那就開始總結(jié)吧。 打開STATA并導(dǎo)入EXCEL數(shù)據(jù) 本周的收獲是關(guān)于處理從SEER數(shù)據(jù)庫里下載的數(shù)據(jù),利用STATA軟件來對(duì)數(shù)據(jù)處理。前面一篇是關(guān)于EXCEL來處理數(shù)據(jù),發(fā)現(xiàn)雖然上手快,但速度要慢一點(diǎn);而用STATA上手稍慢點(diǎn),但處理速度要快得多,而且很簡(jiǎn)潔。關(guān)于STATA安裝問題,在百度下搜索,下載無腦安裝就可以了。 打開STATA,頁面如下: 拿我們上周從數(shù)據(jù)庫里下載的數(shù)據(jù)來舉例。 我們需要將以上EXCEL表導(dǎo)入STATA中,步驟如下: 以上圖片顯示EXCEL導(dǎo)入成功。 STATA處理數(shù)據(jù) 1 我們的目標(biāo)時(shí)將EXCEL里的性別、種族、分化程度、T分期、N分期、M分期六個(gè)變量全部用數(shù)字代替,并且刪除一些無效數(shù)據(jù)。 例如第一個(gè)變量,Sex,用'1'表示'Male',用'2'表示'Female',用STATA操作,以下是編寫命令的過程: 第一步:輸入以下命令 gen gender =9 這里的意思是在STATA里生成一個(gè)新的變量,并將所有患者默認(rèn)值為9,在SEER數(shù)據(jù)庫里“9”代表未知的意思。(備注:以上命令包括以下所有命令中的符號(hào)是全英文下的狀態(tài),不會(huì)軟件運(yùn)行會(huì)報(bào)錯(cuò)。) 第二步:然后再輸入以下命令 replace gender =1 if strmatch(Sex, '*Male*') replace gender =2 if strmatch(Sex, '*Female*') 意思就是抓取Sex里的'Male'、'Female'字眼,并分別將他們賦值為:'1'、'2'保存到之前生成的gender的變量里面。 如圖所示,連個(gè)命令可以同時(shí)輸入,再enter 打開中間靠右的Data Browser,將表格拖到最右邊,如下圖。 這里的gender數(shù)值意義就是將Sex里的'Male'、'Female'全部用'1'、'2'表示,一步到位,避免EXCEL的篩選步驟的繁瑣。 2 第二個(gè)變量,race,我們用'1'表示'White',用'2'表示'Black', 用'3'表示'Other', 同樣,首先生成一個(gè)新的變量: gen race =9 然后再輸入以下命令 replace race=1 if strmatch(RacerecodeWhiteBlackOther, '*White*') replace race=2 if strmatch(RacerecodeWhiteBlackOther, '*Black*') replace race=3 if strmatch(RacerecodeWhiteBlackOther, '*Other*') 如下圖所示: race下面的'1'、'2'、'3'分別代表'White'、'Black'、'Other' 我們可以觀察下這個(gè)race下面的數(shù)據(jù)分布情況, 輸入命令:tab race 如下圖。 從這里我們可以看到各個(gè)種族的例數(shù)及比例分布,其中的'9'還有129例代表的是'unknown',我們可以一個(gè)命令(drop if race ==9)就可以把這129例患者資料刪除,如下圖。 3 STATA還有一個(gè)最大的厲害之處就是我們處理數(shù)據(jù)之前,可以把我們要處理的變量在TXT文檔里把全部命令寫好,然后在粘貼復(fù)制到STATA里,一秒鐘處理全部數(shù)據(jù),比上一系列文章中的EXCEL處理快太多。 再在Data Browser里查看,如下圖。 再?gòu)腟TATA里將處理完的數(shù)據(jù)全部導(dǎo)出至EXCEL里,同導(dǎo)入方式,導(dǎo)出結(jié)果如下圖。 這就是利用STATA高效處理數(shù)據(jù)全過程。 記得一句話“快就是慢,慢就是快”,對(duì)于數(shù)據(jù)的處理,利用EXCEL和STATA處理數(shù)據(jù)看個(gè)人選擇,經(jīng)過我自己親自實(shí)操的感受來看,我認(rèn)為STATA要好太多。如果誰需要相關(guān)命令的模版,私信我。 用了5個(gè)系列將SEER數(shù)據(jù)庫從入門到提取數(shù)據(jù),再到處理數(shù)據(jù),接下來我會(huì)繼續(xù)研究關(guān)于數(shù)據(jù)分析這塊,距離發(fā)一篇SCI又近了一步,哈哈。 累了,渴了,來碗毒雞湯:你必須不停地奔跑,才能留在原地。 ———— e n d ———— |
|