之前Leopard老師介紹了關(guān)于用biomart包進行ID轉(zhuǎn)換的方式,Byron現(xiàn)在給大家介紹另外一種方式,使用Y叔的clusterProfiler包進行ID轉(zhuǎn)換。 簡單介紹一下幾種常用的ID Ensemble id:由歐洲生物信息數(shù)據(jù)庫提供,一般以ENSG開頭,后邊跟11位數(shù)字。如TP53基因:ENSG00000141510 Entrez id:由美國NCBI提供,通常為純數(shù)字。如TP53基因:7157 Symbol id:為我們常在文獻中報道的基因名稱。如TP53基因的symbol id為TP53 Refseq id:NCBI提供的參考序列數(shù)據(jù)庫:可以是NG、NM、NP開頭,代表基因,轉(zhuǎn)錄本和蛋白質(zhì)。如TP53基因的某個轉(zhuǎn)錄本信息可為NM_000546 簡單介紹一下clusterProfiler包 clusterProfiler包是有Y叔開發(fā)的包之一,可以進行基因及基因簇的分析和基因譜功能可視化,功能強大且更新很頻繁。我們今天在clusterProfiler包中用到的是其中的叫做bitr()和bitr_kegg()的函數(shù),支持許多物種的ID轉(zhuǎn)換。 與其他的在bioconductor包中安裝的方式相同 查看關(guān)于clusterProfiler包的使用文檔 之后會有網(wǎng)頁彈出,可以看到網(wǎng)頁版說明、R代碼等 如人類的基因組注釋包library(org.Hs.eg.db) 安裝方式和別的bioconductor包中的方式相同 簡單地說明一下注釋包: 因為在不同的物種中,都有著不同的注釋信息。當我們要進行人類的基因組的注釋時,我們要選擇人類的基因組注釋包。另外,在bioconductor中OrgDb對象支持19個物種的注釋http:///packages/release/BiocViews.html#___OrgDb clusterProfiler包方便地提供了keytypes()函數(shù)查看注釋包中的可以進行ID轉(zhuǎn)換的項目。 我們查看一下人類的注釋包中支持的ID轉(zhuǎn)換類型。keytypes(org.Hs.eg.db) 發(fā)現(xiàn)我們常用的幾種,如:ENSEMBL、ENTREZID、SYMBOL、REFSEQ都在其中。 我們的輸入如果是SYMBOL ID的話 我們打算輸出為ENSEMBL、ENTREZID、REFSEQ這三種ID, 利用bitr()函數(shù), 完整的函數(shù)是:bitr(geneID, fromType, toType, OrgDb, drop = TRUE)。 其中的參數(shù)代表: geneID:輸入的geneID fromType:輸入的ID類型 toType:輸出的ID類型 OrgDb:注釋對象的信息 Drop:去除空值與否 輸出結(jié)果: 函數(shù)輸出的對象為數(shù)據(jù)框dataframe,有利用數(shù)據(jù)框的操作方式進行后續(xù)操作。 留一個小作業(yè),請同學(xué)們嘗試一下查找自己感興趣基因的ensembl id、entrez id、refseq id吧。以TP53為例子: 和之前的bitr函數(shù)類似,完整的bitr_kegg()函數(shù)為bitr_kegg(geneID, fromType, toType, organism, drop = TRUE) 注意: 1.這里我們的輸入fromType以及輸出toType,允許的ID為必須為:‘kegg’, ‘ncbi-geneid’, ‘ncbi-proteinid’ or ‘uniprot’中的一個,否則會報錯;另外,kegg id的數(shù)據(jù)源是NCBI,所以這個kegg id與entrez id是一致的。 2.orgaism參數(shù)可以為:‘hsa’,代表人類。其他的物種名稱可以參考kegg的網(wǎng)站https://www./kegg/catalog/org_list.html 還是以TP53基因為例,我們這里的輸入為TP53的entrez id: 7157。 我們從kegg轉(zhuǎn)換成ncbi-proteinid 我們從kegg轉(zhuǎn)換成uniprot 這里我們需要了解為什么會出現(xiàn)3個不同了解的uniprot。 首先,在uniprot中,uniProtKB是經(jīng)過專家校驗的蛋白數(shù)據(jù)庫集,我們一般也通過該數(shù)據(jù)庫查找蛋白的信息。UniProtKB英文全稱UniProt Knowledgebase(UniProt知識庫。主要由兩部分組成:UniProtKB/Swiss-Prot (包含檢查過的、手工注釋的條目) 和 UniProtKB/TrEMBL (包含未校驗的、自動注釋的條目)。 我們分別看一下我們通過轉(zhuǎn)換之后的uniprot id在uniprot數(shù)據(jù)庫中的說明。我們進入數(shù)據(jù)庫中查詢,網(wǎng)站為https://www./ 可以發(fā)現(xiàn),P04637顯示的是TP53基因的蛋白質(zhì)表達水平,級別是Reviewed,就是其來源為UniProtKB/Swiss-Prot。 ![]() 同理,我們可以找到K7PPA8和Q53GA5的結(jié)果。兩者都是轉(zhuǎn)錄本水平的表達,級別都是Unreviewed,就是其來源為UniProtKB/TrEMBL。另外,相對而言,K7PPA8的注釋分數(shù)要高,說明注釋的程度要高一些。 一般ID轉(zhuǎn)換僅僅為開始的準備工作,將自己的數(shù)劇轉(zhuǎn)換好之后可以進行后續(xù)的分析。另外,利用clusterProfiler包可以進行許多豐富的下游分析,比如GO分析、KEGG分析等等,有興趣的同學(xué)們可以進一步學(xué)習(xí)。 |
|