這是發(fā)布在bioconductor平臺(tái)上面的一個(gè)數(shù)據(jù)庫文件,可以通過R里面下載安裝并使用,非常方便。而且用的是數(shù)據(jù)庫存儲(chǔ)方式,所以搜索起來也是非常快速。 這個(gè)包里面有28個(gè)主流數(shù)據(jù)資料文件,這樣我們可以用select函數(shù)根據(jù)我們自己的ID在這28個(gè)數(shù)據(jù)庫里面隨意轉(zhuǎn)換自己想要的信息?。?! 當(dāng)然我本人是比較喜歡直接下載原文件,然后寫腳本自己進(jìn)行各種數(shù)據(jù)直接的轉(zhuǎn)換。 首先我們加載這個(gè)數(shù)據(jù)包,可以看到這個(gè)數(shù)據(jù)包依賴于很多其它的包,如果是第一次安裝。會(huì)耗時(shí)很長! 用這個(gè)函數(shù),可以看到這個(gè)org.Hs.eg.db數(shù)據(jù)對象里面包含著各大主流數(shù)據(jù)庫的數(shù)據(jù),一般人都比較熟悉的entrez ID 和ensembl 數(shù)據(jù)庫的ID。 keytypes(org.Hs.eg.db) ## [1] “ENTREZID” “PFAM” “IPI” “PROSITE” ## [5] “ACCNUM” “ALIAS” “ENZYME” “MAP” ## [9] “PATH” “PMID” “REFSEQ” “SYMBOL” ## [13] “UNIGENE” “ENSEMBL” “ENSEMBLPROT” “ENSEMBLTRANS” ## [17] “GENENAME” “UNIPROT” “GO” “EVIDENCE” ## [21] “ONTOLOGY” “GOALL” “EVIDENCEALL” “ONTOLOGYALL” ## [25] “OMIM” “UCSCKG” 然后,我們用select函數(shù),就可以把任意公共數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行一一對應(yīng)了。 ensids <> “ENSG00000144644″, “ENSG00000159307″, “ENSG00000144485″) cols <> select(org.Hs.eg.db, keys=ensids, columns=cols, keytype=”ENSEMBL”) 比如說,我們有幾個(gè)ensembl的基因ID號(hào)。然后我們想找它所對應(yīng)的gene名和縮略詞簡稱,就通過select函數(shù)來搞定即可! select(org.Hs.eg.db, keys=”BRCA1″, columns=c(“ENSEMBL”,”UNIGENE”,”ENTREZID”,”CHR”,”GO”,”GENENAME”), keytype=”SYMBOL”) 這樣得到了這個(gè)BRCA1基因的大部分信息,只是它的GO條目太多了,看得有點(diǎn)亂。
|
|