今天是生信星球陪你的第251天 大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~ 就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點(diǎn)生信好不好~ 這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進(jìn)階,生信路上有你有我!
背景得到一個(gè)基因集以后,需要知道基因有哪些功能,參與哪些生物過程,只有理解了基因的功能以后,才能聯(lián)系起來基因型與表型。 繼人類基因組計(jì)劃(HGP)完成以后,找到了2萬多個(gè)編碼蛋白基因,但是基因功能還未知,然后又有了ENCODE(Encyclopedia of DNA Elements)計(jì)劃,找到了400萬個(gè)基因開關(guān),平均一個(gè)基因有約200個(gè)開關(guān),這是人類既有共性又有個(gè)性的基礎(chǔ)。ENCODE計(jì)劃使人類基因組不再是個(gè)”空殼“ 關(guān)于ENCODE計(jì)劃:https:///science/pq2nx8.html
功能注釋應(yīng)用場景
原理基因不同于蛋白,不能通過結(jié)構(gòu)來預(yù)測功能,只能通過與已知基因功能數(shù)據(jù)庫的比對去推測。一般的數(shù)據(jù)庫包括了兩部分內(nèi)容:一是基因序列(核酸+氨基酸)FASTA格式;二是基因功能信息(可以寫到FASTA的ID行中或者單獨(dú)放在一個(gè)文件中) 一般采用氨基酸序列與數(shù)據(jù)庫進(jìn)行相似性比對,比對結(jié)果去數(shù)據(jù)庫中進(jìn)行過濾
比對的結(jié)果并不是百分之百完全比對的,那么怎么判斷氨基酸序列和數(shù)據(jù)庫的關(guān)系呢?比對到多少才能被接受?這里需要考慮比對長度、比對分值、identity值等,過濾掉一部分人為認(rèn)定不滿足同源關(guān)系的序列。但是又有一個(gè)問題,不同區(qū)域的基因會(huì)發(fā)生不同程度的突變,如果僅設(shè)置一個(gè)值進(jìn)行過濾——”一刀切“,這個(gè)結(jié)果還是有待優(yōu)化 另外,如果結(jié)果提示: 基本流程如果手頭僅僅有幾條蛋白序列想做下功能注釋,那么直接甩給uniprot/ncbi在線blast比對就可以了,但是我們這里說的情況是成千上萬條基因,肯定不能在線提交,那么怎么辦? 要進(jìn)行大量蛋白序列的功能注釋,需要包括:同源注釋、功能分類 同源注釋
功能分類只了解單個(gè)基因的功能是不夠的,因?yàn)榛蜷g是相互作用、協(xié)同完成生物功能的,所有需要進(jìn)行分類,這就是在RNA-seq中得到差異表達(dá)基因后做的功能分類(GO)和富集分析(KEGG)過程,看看基因是不是協(xié)同完成某一個(gè)生物過程,它的原理與功能注釋相似,也是利用已有的分類去推測未知的分類
例如COG數(shù)據(jù)庫(Cluster of Orthologous Groups of proteins, https://www.ncbi.nlm./COG/)是細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類得來的。
# 下載數(shù)據(jù)庫數(shù)據(jù) 參考:http://yk./myblog/cog%E5%88%86%E6%9E%90/ 又例如GO數(shù)據(jù)庫 ,其中每個(gè)注釋都是對基因產(chǎn)物的描述,有特定的分子功能(MF),涉及到特定的生物過程(BP),作用在特定的細(xì)胞組分(CC)。它把所有候選的靶基因向GO的各個(gè)term進(jìn)行映射,然后計(jì)算映射到每個(gè)term的靶基因數(shù)量,在整個(gè)參考基因背景中利用超幾何分布檢驗(yàn),選出候選靶標(biāo)基因中顯著富集的GOterm 再例如KEGG數(shù)據(jù)庫,關(guān)于生物化學(xué)途徑的描述,許多活細(xì)胞的功能不能僅僅依賴于單個(gè)基因,它將基因組信息與更高一級的功能信息結(jié)合;另外它可以將基因組中的許多基因利用細(xì)胞內(nèi)分子互作網(wǎng)絡(luò)聯(lián)系起來,通過通路或者復(fù)合物來展示更高級的生物學(xué)功能
|
|