日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

簡(jiǎn)單七步教你處理芯片原始數(shù)據(jù)

 田明17grajsnth 2017-09-24

廣告:工作室提供有償芯片數(shù)據(jù)分析,大家有芯片相關(guān)數(shù)據(jù)處理,請(qǐng)留言....

很久沒有處理芯片原始數(shù)據(jù)了,一般情況下去GEO下載數(shù)據(jù)的時(shí)候都是直接下載處理后的,所以用著用著也就懶了,今天去下載GSE42743的數(shù)據(jù)如圖,發(fā)現(xiàn)竟然沒有處理好的,糾結(jié)之余小編決定親自從原始數(shù)據(jù)入手,開啟洪荒之力。

下面小編就一步一步教你實(shí)戰(zhàn)GEO芯片原始數(shù)據(jù)處理





01



下載芯片數(shù)據(jù),進(jìn)入GEO首頁(yè)搜索跟自身研究相關(guān)的GEO數(shù)據(jù)集,找到合適的數(shù)據(jù)比如GSE42743,點(diǎn)擊進(jìn)去找到如下圖所示,可以看到File type為CEL即為原始數(shù)據(jù)啦,看到左側(cè)有個(gè)http有木有,點(diǎn)擊下載就哦啦





02

安裝affy包,很顯然原始芯片數(shù)據(jù)需要專門的包去處理,這里要使用affy包進(jìn)行數(shù)據(jù)處理,所以安裝這個(gè)affy包也很簡(jiǎn)單,有兩種方法如下:

1、install.package('affy')

2、

source('https:///biocLite.R')

biocLite('affy')

擇其一選擇安裝即可,如果一種方法不行就換一種


03

導(dǎo)入affy包,這里因?yàn)閍ffy包可能用到其他的包,所以導(dǎo)入affy包之前需要導(dǎo)入它所依賴的包,如果沒有安裝的話,就自行安裝就好了,導(dǎo)入包如下:

library(BiocGenerics)

library(parallel)

library(Biobase)

library(affy)


04

設(shè)置數(shù)據(jù)環(huán)境,導(dǎo)入affy完畢了之后,現(xiàn)在需要配置數(shù)據(jù)環(huán)境以便能夠?qū)υ紨?shù)據(jù)提取,先解壓下載下來的GSE42743_RAW文件,然后可以看到所有的CEL文件都在這個(gè)文件夾下面,可能你會(huì)發(fā)現(xiàn)后綴怎么會(huì)有個(gè)gz,不用擔(dān)心這是一種數(shù)據(jù)壓縮格式,affy會(huì)自動(dòng)解壓,無(wú)需自己提前解壓;現(xiàn)在要設(shè)置當(dāng)前操作目錄,使用命令如下:

setwd('E:/Work/P1/SH824/GSE42743_RAW')

注意哦,路徑別寫錯(cuò)啦



05

讀取原始數(shù)據(jù)啦,通過包的導(dǎo)入和數(shù)據(jù)環(huán)境的準(zhǔn)備之后,現(xiàn)在開始讀取數(shù)據(jù),也很簡(jiǎn)單啦,有兩種方式哦,代碼如下:

1、rawdata <- ReadAffy()###讀取全部的原始文件,這個(gè)時(shí)候就考驗(yàn)?zāi)愕碾娔X內(nèi)存了

2、rawdata1 <- ReadAffy('GSM1049165_MDA-HNS-112.CEL.gz')###讀取單個(gè)原始文件


06

標(biāo)準(zhǔn)化,讀取完數(shù)據(jù)當(dāng)然是處理和標(biāo)準(zhǔn)化啦,這一步呢也是一條命令的事,但是芯片數(shù)據(jù)標(biāo)準(zhǔn)化方法很多,小編常常使用的兩種標(biāo)準(zhǔn)化方法分別為rma和mas5,這里都奉獻(xiàn)給你吧,代碼如下:

1、eset <- rma(rawdata) #rma標(biāo)準(zhǔn)化方式

2、eset <- mas5(rawdata)#mas5標(biāo)準(zhǔn)化方式

注意哦,rma只使用pm信號(hào),exp數(shù)據(jù)已經(jīng)進(jìn)行l(wèi)og2處理。mas5綜合考慮pm和mm信號(hào),exp數(shù)據(jù)沒有取對(duì)數(shù)。


07

很顯然,現(xiàn)在要把得到的芯片數(shù)據(jù)標(biāo)準(zhǔn)化的結(jié)果進(jìn)行保存了,使用代碼如下:

write.exprs(eset, file='NormalizedData.txt')

保存在了當(dāng)前工作目錄下哦


當(dāng)然如果你不想保存,還想繼續(xù)用的話就使用exprs函數(shù)進(jìn)行轉(zhuǎn)換成表達(dá)譜矩陣?yán)?,代碼如下:

exp <- exprs(eset)

總結(jié)一下小編的代碼如下




library(BiocGenerics)

library(parallel)

library(Biobase)

library(affy)


setwd('GSE42743_RAW')

rawdata <- ReadAffy()

eset <- rma(rawdata)#eset <- mas5(rawdata)

#rawdata1 <- ReadAffy('GSM1049165_MDA-HNS-112.CEL.gz')

write.exprs(eset, file='NormalizedData.txt')


小貼士

這其中呢要畫圖嘛,主要涉及兩張圖,一張是標(biāo)準(zhǔn)化前的,一張是標(biāo)準(zhǔn)化后的箱線圖,其實(shí)也很簡(jiǎn)單啦

標(biāo)準(zhǔn)化前,繪圖,代碼如下:

boxplot(exprs(rawdata))

沒圖?。。?!因?yàn)樾【庪娔X死機(jī)了

標(biāo)準(zhǔn)化后,繪圖代碼如下:

boxplot(exprs(eset))


怎么看這個(gè)前后效果呢,就看圖中小編畫了紅色的那條線,中位數(shù)的分布是否在一條線上,很明顯標(biāo)準(zhǔn)化前都不全在一條線上(無(wú)圖無(wú)真相,自己試吧),標(biāo)準(zhǔn)化后在一條線上了。


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多