ID轉(zhuǎn)換不用怕（二），R大神Y叔clusterProfiler包幫你忙

雙峰寶林 2019-05-06

展開全文

之前Leopard老師介紹了關(guān)于用biomart包進行ID轉(zhuǎn)換的方式，Byron現(xiàn)在給大家介紹另外一種方式，使用Y叔的clusterProfiler包進行ID轉(zhuǎn)換。

簡單介紹一下幾種常用的ID

Ensemble id：由歐洲生物信息數(shù)據(jù)庫提供，一般以ENSG開頭，后邊跟11位數(shù)字。如TP53基因：ENSG00000141510

Entrez id：由美國NCBI提供，通常為純數(shù)字。如TP53基因：7157

Symbol id：為我們常在文獻中報道的基因名稱。如TP53基因的symbol id為TP53

Refseq id：NCBI提供的參考序列數(shù)據(jù)庫：可以是NG、NM、NP開頭，代表基因，轉(zhuǎn)錄本和蛋白質(zhì)。如TP53基因的某個轉(zhuǎn)錄本信息可為NM_000546

簡單介紹一下clusterProfiler包

clusterProfiler包是有Y叔開發(fā)的包之一，可以進行基因及基因簇的分析和基因譜功能可視化，功能強大且更新很頻繁。我們今天在clusterProfiler包中用到的是其中的叫做bitr()和bitr_kegg()的函數(shù)，支持許多物種的ID轉(zhuǎn)換。

一 clusterProfiler包的安裝與簡介

與其他的在bioconductor包中安裝的方式相同

查看關(guān)于clusterProfiler包的使用文檔

之后會有網(wǎng)頁彈出，可以看到網(wǎng)頁版說明、R代碼等

二載入包library(clusterProfiler)

三載入注釋包

如人類的基因組注釋包library(org.Hs.eg.db)

安裝方式和別的bioconductor包中的方式相同

簡單地說明一下注釋包：

因為在不同的物種中，都有著不同的注釋信息。當我們要進行人類的基因組的注釋時，我們要選擇人類的基因組注釋包。另外，在bioconductor中OrgDb對象支持19個物種的注釋http:///packages/release/BiocViews.html#___OrgDb

四查看注釋包中支持的ID轉(zhuǎn)換類型

clusterProfiler包方便地提供了keytypes()函數(shù)查看注釋包中的可以進行ID轉(zhuǎn)換的項目。

我們查看一下人類的注釋包中支持的ID轉(zhuǎn)換類型。keytypes(org.Hs.eg.db)

發(fā)現(xiàn)我們常用的幾種，如：ENSEMBL、ENTREZID、SYMBOL、REFSEQ都在其中。

五進行ID轉(zhuǎn)換

我們的輸入如果是SYMBOL ID的話

我們打算輸出為ENSEMBL、ENTREZID、REFSEQ這三種ID，

利用bitr()函數(shù)，

完整的函數(shù)是：bitr(geneID, fromType, toType, OrgDb, drop = TRUE)。

其中的參數(shù)代表：

geneID：輸入的geneID

fromType：輸入的ID類型

toType：輸出的ID類型

OrgDb：注釋對象的信息

Drop：去除空值與否

輸出結(jié)果：

函數(shù)輸出的對象為數(shù)據(jù)框dataframe，有利用數(shù)據(jù)框的操作方式進行后續(xù)操作。

留一個小作業(yè)，請同學(xué)們嘗試一下查找自己感興趣基因的ensembl id、entrez id、refseq id吧。以TP53為例子：

六利用bitr_kegg()函數(shù)進行基因ID與蛋白質(zhì)ID的轉(zhuǎn)換

和之前的bitr函數(shù)類似，完整的bitr_kegg()函數(shù)為bitr_kegg(geneID, fromType, toType, organism, drop = TRUE)

注意：

1.這里我們的輸入fromType以及輸出toType，允許的ID為必須為：‘kegg’, ‘ncbi-geneid’, ‘ncbi-proteinid’ or ‘uniprot’中的一個，否則會報錯；另外，kegg id的數(shù)據(jù)源是NCBI，所以這個kegg id與entrez id是一致的。

2.orgaism參數(shù)可以為：‘hsa’，代表人類。其他的物種名稱可以參考kegg的網(wǎng)站https://www./kegg/catalog/org_list.html

還是以TP53基因為例，我們這里的輸入為TP53的entrez id: 7157。

我們從kegg轉(zhuǎn)換成ncbi-proteinid

我們從kegg轉(zhuǎn)換成uniprot

這里我們需要了解為什么會出現(xiàn)3個不同了解的uniprot。

首先，在uniprot中，uniProtKB是經(jīng)過專家校驗的蛋白數(shù)據(jù)庫集，我們一般也通過該數(shù)據(jù)庫查找蛋白的信息。UniProtKB英文全稱UniProt Knowledgebase（UniProt知識庫。主要由兩部分組成：UniProtKB/Swiss-Prot (包含檢查過的、手工注釋的條目) 和 UniProtKB/TrEMBL (包含未校驗的、自動注釋的條目)。

我們分別看一下我們通過轉(zhuǎn)換之后的uniprot id在uniprot數(shù)據(jù)庫中的說明。我們進入數(shù)據(jù)庫中查詢，網(wǎng)站為https://www./

可以發(fā)現(xiàn)，P04637顯示的是TP53基因的蛋白質(zhì)表達水平，級別是Reviewed，就是其來源為UniProtKB/Swiss-Prot。

同理，我們可以找到K7PPA8和Q53GA5的結(jié)果。兩者都是轉(zhuǎn)錄本水平的表達，級別都是Unreviewed，就是其來源為UniProtKB/TrEMBL。另外，相對而言，K7PPA8的注釋分數(shù)要高，說明注釋的程度要高一些。

七 ID轉(zhuǎn)換之后

一般ID轉(zhuǎn)換僅僅為開始的準備工作，將自己的數(shù)劇轉(zhuǎn)換好之后可以進行后續(xù)的分析。另外，利用clusterProfiler包可以進行許多豐富的下游分析，比如GO分析、KEGG分析等等，有興趣的同學(xué)們可以進一步學(xué)習(xí)。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：雙峰寶林 > 《文件夾1》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

雙峰寶林

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] TCGA數(shù)據(jù)庫挖掘分析，這個網(wǎng)站好用到爆！
[轉(zhuǎn)] TCGA數(shù)據(jù)發(fā)表5分文章
使用GEOmetadb包來獲取對應(yīng)GEO數(shù)據(jù)的實驗信息 | 生信菜鳥團
[轉(zhuǎn)] 解讀GEO數(shù)據(jù)存放規(guī)律及下載，一文就夠
GEO 下載的series matrix 文件想把基因表達量用R轉(zhuǎn)換為LOG2,求代碼
[轉(zhuǎn)] 你要的R語言處理GEO芯片數(shù)據(jù)的視頻出爐啦！

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

ID轉(zhuǎn)換不用怕（二），R大神Y叔clusterProfiler包幫你忙

ID轉(zhuǎn)換不用怕（二），R大神Y叔clusterProfiler包幫你忙