為什么要搞全基因組測(cè)序（一）

微笑如酒 2019-01-31

展開全文

今天是生信星球陪你的第249天

大神一句話，菜鳥跑半年。我不是大神，但我可以縮短你走彎路的半年~

就像歌兒唱的那樣，如果你不知道該往哪兒走，就留在這學(xué)點(diǎn)生信好不好~

這里有豆豆和花花的學(xué)習(xí)歷程，從新手到進(jìn)階，生信路上有你有我！

豆豆寫于19.1.14
隨著測(cè)序技術(shù)的不斷升級(jí)優(yōu)化，讀長越來越長，某些基因組比較小的細(xì)菌可以實(shí)現(xiàn)從頭測(cè)到尾，那么為什么我們要獲得全基因組信息？它能為我們提供什么幫助呢？
今天先來了解了解基因預(yù)測(cè)的事情

認(rèn)知的進(jìn)化

首先對(duì)于生物這個(gè)詞匯，我們的認(rèn)知水平是在不斷刷新的，從開始的生態(tài)學(xué)角度了解生物的形態(tài)結(jié)構(gòu)、種群群落組成到生物的生理生化過程研究（例如物質(zhì)代謝、能量流動(dòng)），有了基因組后，我們就可以從基因組層面上對(duì)基因功能進(jìn)行注釋，然后比較不同生物的基因組差異，看看哪些生物的基因組特征值得被研究?？偠灾?，我們想搞明白我們從哪里來，能到哪里去。

基因組層面能分析些啥

這么高大上的詞匯背后肯定有大量的分析要點(diǎn)，否則不用這么費(fèi)時(shí)費(fèi)力去取樣、測(cè)序。另外，不管使用什么測(cè)序手段（Illumina、PacBio、IonTorrent等），最后得到的結(jié)果用處都差不多，大體上分為：結(jié)構(gòu)基因組學(xué)、功能基因組學(xué)、比較基因組學(xué)（來自百度百科），感覺這么說還是不太明白。

想想我們做基因組不還是為了更好地去了解這個(gè)物種嗎？

那么首先，要對(duì)這個(gè)物種本身達(dá)成一定的認(rèn)知，比如基因組上哪些位置是基因？基因的功能都是哪些？與該物種表現(xiàn)出來的特有的功能相關(guān)的基因是哪些？另外除了編碼區(qū)域，還有哪些區(qū)域是非編碼RNA？哪些是重復(fù)序列？哪些編碼比較特殊的基因元件？
除了分析自身，還可以與其他物種比較 ，發(fā)現(xiàn)它們之間的差別（包括單堿基水平變化：轉(zhuǎn)換、顛換、插入、缺失；染色體水平變化：倒位、易位、插入、缺失），找到親緣關(guān)系遠(yuǎn)近
找到基因組上的差異后，可以再和表型信息進(jìn)行關(guān)聯(lián)分析

舉個(gè)例子：人貴在有自知之明，那么我們?nèi)绾巫龅阶灾兀?br>首先最了解自己的人就是本體啦（包括自己適合做什么，有什么興趣愛好，對(duì)什么領(lǐng)域感興趣）=》物種本身認(rèn)知，然后自己可以再和其他人比較（看看哪些地方做的還有所欠缺，哪些地方值得發(fā)揚(yáng)）=》其他物種比較。明白差異后，我們可以有的放矢，去尋找和自己愛好相關(guān)的工作=》差異與表型關(guān)聯(lián)

基因預(yù)測(cè)

一般有兩種方法：

和已知近緣物種基因集進(jìn)行同源序列比對(duì)，篩選出同源比對(duì)區(qū)域，作為基因（就是利用已知的信息去預(yù)測(cè)未知）
從頭預(yù)測(cè)：利用軟件對(duì)物種的基因組直接進(jìn)行預(yù)測(cè)（如果分析的序列有明顯的特征，如：基因的編碼區(qū)CDS與開放閱讀框ORF、核糖體RNA的保守域、轉(zhuǎn)運(yùn)RNA的倒三葉草結(jié)構(gòu)，就可以用軟件識(shí)別結(jié)構(gòu)并預(yù)測(cè)）

兩種方法比較

從頭預(yù)測(cè)：不需要同源參考基因序列，直接可以進(jìn)行預(yù)測(cè)，適用于新發(fā)現(xiàn)的物種（因?yàn)闆]有足夠的已知信息，因此需要先構(gòu)建訓(xùn)練集【訓(xùn)練集：軟件先對(duì)基因組的特征做一個(gè)調(diào)查了解】）

序列比對(duì)：找的基因是已知發(fā)表過的，結(jié)果更加準(zhǔn)確，但是畢竟是近緣物種，不可能序列區(qū)域一致，因此可能同源區(qū)不含有某個(gè)基因或者有一段非同源區(qū)域恰好含有特征基因，這樣就會(huì)漏掉一些

開放閱讀框（Open reading frame，ORF）

從5'端開始翻譯的其實(shí)密碼子（ATG）到終止密碼子（TTA、TAG、TGA）的蛋白編碼序列。預(yù)測(cè)之前我們是不知道DNA雙鏈中的哪一條鏈?zhǔn)蔷幋a鏈，也不清楚準(zhǔn)確的翻譯起始位置，但是知道的是：正負(fù)兩條鏈每條都有三種可能的ORF，兩條鏈共6種。于是我們就是利用這6種可能的ORF找到一個(gè)正確的，然后根據(jù)這個(gè)ORF得到氨基酸序列，最后預(yù)測(cè)出來蛋白產(chǎn)物

補(bǔ)充：不是所有的ORF都叫CDS
CDS，是編碼一段蛋白產(chǎn)物的序列；ORF是理論上的氨基酸編碼區(qū)；CDS一定屬于ORF，當(dāng)然可能包括許多個(gè)ORF，但是每個(gè)ORF不一定都是CDS。
ORF的識(shí)別是證明一個(gè)新的DNA序列為特定的蛋白質(zhì)編碼基因的部分或全部的先決條件。
http://bioinformatics.lofter.com/post/bffd5_243426

原核生物-軟件

基于HMM（隱馬可夫模型）glimmer3：https://ccb./software/glimmer/

Prodical：https://github.com/hyattpd/Prodigal

GeneMark：http://exon./GeneMark/

相對(duì)簡單，用自身的基因組作訓(xùn)練集即可

根據(jù)不同的物種，選擇適合的密碼子表
https://www.ncbi.nlm./Taxonomy/Utils/wprintgc.cgi

真核生物-軟件

復(fù)雜的地方在于：ORF不僅包含編碼蛋白的外顯子（exon）還有內(nèi)含子（intron），內(nèi)含子將ORF分割成許多個(gè)小片段，導(dǎo)致ORF的長度變化范圍很大。但是， 真核生物的外顯子與內(nèi)含子連接基本滿足GT-AG規(guī)律（即：內(nèi)含子序列的5’端起始的兩個(gè)核苷酸總是GT，3‘端最后的兩個(gè)核苷酸總是AG，5'-GT...AG-3' ）

利用Augustus（http://augustus./）包括人、大型哺乳動(dòng)物、植物、鳥類、真菌基因組等

訓(xùn)練集：http://augustus./datasets/

除了基因預(yù)測(cè)，還可以用于從頭預(yù)測(cè)，加入cDNA和EST序列，輔助提高預(yù)測(cè)準(zhǔn)確度

一般可以選擇多個(gè)工具進(jìn)行預(yù)測(cè)，因?yàn)轭A(yù)測(cè)是非常關(guān)鍵的一步，會(huì)影響到下游基因功能注釋部分，發(fā)表后別人還會(huì)以此來進(jìn)行研究，因此，對(duì)于一個(gè)新的基因組，預(yù)測(cè)錯(cuò)誤會(huì)產(chǎn)生“蝴蝶效應(yīng)”

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：微笑如酒 > 《測(cè)序》

舉報(bào)/認(rèn)領(lǐng)