今天是生信星球陪你的第249天 大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~ 就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點(diǎn)生信好不好~ 這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進(jìn)階,生信路上有你有我!
認(rèn)知的進(jìn)化首先對(duì)于生物這個(gè)詞匯,我們的認(rèn)知水平是在不斷刷新的,從開始的生態(tài)學(xué)角度了解生物的形態(tài)結(jié)構(gòu)、種群群落組成到生物的生理生化過程研究(例如物質(zhì)代謝、能量流動(dòng)),有了基因組后,我們就可以從基因組層面上對(duì)基因功能進(jìn)行注釋,然后比較不同生物的基因組差異,看看哪些生物的基因組特征值得被研究??偠灾?,我們想搞明白我們從哪里來,能到哪里去。 基因組層面能分析些啥這么高大上的詞匯背后肯定有大量的分析要點(diǎn),否則不用這么費(fèi)時(shí)費(fèi)力去取樣、測(cè)序。另外,不管使用什么測(cè)序手段(Illumina、PacBio、IonTorrent等),最后得到的結(jié)果用處都差不多,大體上分為:結(jié)構(gòu)基因組學(xué)、功能基因組學(xué)、比較基因組學(xué)(來自百度百科),感覺這么說還是不太明白。 想想我們做基因組不還是為了更好地去了解這個(gè)物種嗎?
基因預(yù)測(cè)一般有兩種方法:
兩種方法比較從頭預(yù)測(cè):不需要同源參考基因序列,直接可以進(jìn)行預(yù)測(cè),適用于新發(fā)現(xiàn)的物種(因?yàn)闆]有足夠的已知信息,因此需要先構(gòu)建訓(xùn)練集【訓(xùn)練集:軟件先對(duì)基因組的特征做一個(gè)調(diào)查了解】) 序列比對(duì):找的基因是已知發(fā)表過的,結(jié)果更加準(zhǔn)確,但是畢竟是近緣物種,不可能序列區(qū)域一致,因此可能同源區(qū)不含有某個(gè)基因或者有一段非同源區(qū)域恰好含有特征基因,這樣就會(huì)漏掉一些 開放閱讀框(Open reading frame,ORF)從5'端開始翻譯的其實(shí)密碼子(ATG)到終止密碼子(TTA、TAG、TGA)的蛋白編碼序列。預(yù)測(cè)之前我們是不知道DNA雙鏈中的哪一條鏈?zhǔn)蔷幋a鏈,也不清楚準(zhǔn)確的翻譯起始位置,但是知道的是:正負(fù)兩條鏈每條都有三種可能的ORF,兩條鏈共6種。于是我們就是利用這6種可能的ORF找到一個(gè)正確的,然后根據(jù)這個(gè)ORF得到氨基酸序列,最后預(yù)測(cè)出來蛋白產(chǎn)物
原核生物-軟件基于HMM(隱馬可夫模型)glimmer3:https://ccb./software/glimmer/ Prodical:https://github.com/hyattpd/Prodigal GeneMark:http://exon./GeneMark/ 相對(duì)簡單,用自身的基因組作訓(xùn)練集即可 根據(jù)不同的物種,選擇適合的密碼子表 真核生物-軟件復(fù)雜的地方在于:ORF不僅包含編碼蛋白的外顯子(exon)還有內(nèi)含子(intron),內(nèi)含子將ORF分割成許多個(gè)小片段,導(dǎo)致ORF的長度變化范圍很大。但是, 真核生物的外顯子與內(nèi)含子連接基本滿足GT-AG規(guī)律(即:內(nèi)含子序列的5’端起始的兩個(gè)核苷酸總是GT,3‘端最后的兩個(gè)核苷酸總是AG, 利用Augustus(http://augustus./) 包括人、大型哺乳動(dòng)物、植物、鳥類、真菌基因組等 訓(xùn)練集:http://augustus./datasets/ 除了基因預(yù)測(cè),還可以用于從頭預(yù)測(cè),加入cDNA和EST序列,輔助提高預(yù)測(cè)準(zhǔn)確度
|
|