日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

為什么要搞全基因組測(cè)序(一)

 微笑如酒 2019-01-31

  今天是生信星球陪你的第249天


   大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~

   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點(diǎn)生信好不好~

   這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進(jìn)階,生信路上有你有我!

豆豆寫于19.1.14

隨著測(cè)序技術(shù)的不斷升級(jí)優(yōu)化,讀長越來越長,某些基因組比較小的細(xì)菌可以實(shí)現(xiàn)從頭測(cè)到尾,那么為什么我們要獲得全基因組信息?它能為我們提供什么幫助呢?
今天先來了解了解基因預(yù)測(cè)的事情

認(rèn)知的進(jìn)化

首先對(duì)于生物這個(gè)詞匯,我們的認(rèn)知水平是在不斷刷新的,從開始的生態(tài)學(xué)角度了解生物的形態(tài)結(jié)構(gòu)、種群群落組成到生物的生理生化過程研究(例如物質(zhì)代謝、能量流動(dòng)),有了基因組后,我們就可以從基因組層面上對(duì)基因功能進(jìn)行注釋,然后比較不同生物的基因組差異,看看哪些生物的基因組特征值得被研究??偠灾?,我們想搞明白我們從哪里來,能到哪里去

基因組層面能分析些啥

這么高大上的詞匯背后肯定有大量的分析要點(diǎn),否則不用這么費(fèi)時(shí)費(fèi)力去取樣、測(cè)序。另外,不管使用什么測(cè)序手段(Illumina、PacBio、IonTorrent等),最后得到的結(jié)果用處都差不多,大體上分為:結(jié)構(gòu)基因組學(xué)、功能基因組學(xué)、比較基因組學(xué)(來自百度百科),感覺這么說還是不太明白。

想想我們做基因組不還是為了更好地去了解這個(gè)物種嗎?

  • 那么首先,要對(duì)這個(gè)物種本身達(dá)成一定的認(rèn)知,比如基因組上哪些位置是基因?基因的功能都是哪些?與該物種表現(xiàn)出來的特有的功能相關(guān)的基因是哪些?另外除了編碼區(qū)域,還有哪些區(qū)域是非編碼RNA?哪些是重復(fù)序列?哪些編碼比較特殊的基因元件?

  • 除了分析自身,還可以與其他物種比較 ,發(fā)現(xiàn)它們之間的差別(包括單堿基水平變化:轉(zhuǎn)換、顛換、插入、缺失;染色體水平變化:倒位、易位、插入、缺失),找到親緣關(guān)系遠(yuǎn)近

  • 找到基因組上的差異后,可以再和表型信息進(jìn)行關(guān)聯(lián)分析

舉個(gè)例子:人貴在有自知之明,那么我們?nèi)绾巫龅阶灾兀?br>首先最了解自己的人就是本體啦(包括自己適合做什么,有什么興趣愛好,對(duì)什么領(lǐng)域感興趣)=》物種本身認(rèn)知,然后自己可以再和其他人比較(看看哪些地方做的還有所欠缺,哪些地方值得發(fā)揚(yáng))=》其他物種比較。明白差異后,我們可以有的放矢,去尋找和自己愛好相關(guān)的工作=》差異與表型關(guān)聯(lián)

基因預(yù)測(cè)

一般有兩種方法:

  • 和已知近緣物種基因集進(jìn)行同源序列比對(duì),篩選出同源比對(duì)區(qū)域,作為基因(就是利用已知的信息去預(yù)測(cè)未知)

  • 從頭預(yù)測(cè):利用軟件對(duì)物種的基因組直接進(jìn)行預(yù)測(cè)(如果分析的序列有明顯的特征,如:基因的編碼區(qū)CDS與開放閱讀框ORF、核糖體RNA的保守域、轉(zhuǎn)運(yùn)RNA的倒三葉草結(jié)構(gòu),就可以用軟件識(shí)別結(jié)構(gòu)并預(yù)測(cè))

兩種方法比較

從頭預(yù)測(cè):不需要同源參考基因序列,直接可以進(jìn)行預(yù)測(cè),適用于新發(fā)現(xiàn)的物種(因?yàn)闆]有足夠的已知信息,因此需要先構(gòu)建訓(xùn)練集【訓(xùn)練集:軟件先對(duì)基因組的特征做一個(gè)調(diào)查了解】)

序列比對(duì):找的基因是已知發(fā)表過的,結(jié)果更加準(zhǔn)確,但是畢竟是近緣物種,不可能序列區(qū)域一致,因此可能同源區(qū)不含有某個(gè)基因或者有一段非同源區(qū)域恰好含有特征基因,這樣就會(huì)漏掉一些

開放閱讀框(Open reading frame,ORF)

從5'端開始翻譯的其實(shí)密碼子(ATG)到終止密碼子(TTA、TAG、TGA)的蛋白編碼序列。預(yù)測(cè)之前我們是不知道DNA雙鏈中的哪一條鏈?zhǔn)蔷幋a鏈,也不清楚準(zhǔn)確的翻譯起始位置,但是知道的是:正負(fù)兩條鏈每條都有三種可能的ORF,兩條鏈共6種。于是我們就是利用這6種可能的ORF找到一個(gè)正確的,然后根據(jù)這個(gè)ORF得到氨基酸序列,最后預(yù)測(cè)出來蛋白產(chǎn)物

補(bǔ)充:不是所有的ORF都叫CDS

CDS,是編碼一段蛋白產(chǎn)物的序列;ORF是理論上的氨基酸編碼區(qū);CDS一定屬于ORF,當(dāng)然可能包括許多個(gè)ORF,但是每個(gè)ORF不一定都是CDS。
ORF的識(shí)別是證明一個(gè)新的DNA序列為特定的蛋白質(zhì)編碼基因的部分或全部的先決條件。

http://bioinformatics.lofter.com/post/bffd5_243426

原核生物-軟件

基于HMM(隱馬可夫模型)glimmer3:https://ccb./software/glimmer/

Prodical:https://github.com/hyattpd/Prodigal

GeneMark:http://exon./GeneMark/

相對(duì)簡單,用自身的基因組作訓(xùn)練集即可

根據(jù)不同的物種,選擇適合的密碼子表
https://www.ncbi.nlm./Taxonomy/Utils/wprintgc.cgi

真核生物-軟件

復(fù)雜的地方在于:ORF不僅包含編碼蛋白的外顯子(exon)還有內(nèi)含子(intron),內(nèi)含子將ORF分割成許多個(gè)小片段,導(dǎo)致ORF的長度變化范圍很大。但是, 真核生物的外顯子與內(nèi)含子連接基本滿足GT-AG規(guī)律(即:內(nèi)含子序列的5’端起始的兩個(gè)核苷酸總是GT,3‘端最后的兩個(gè)核苷酸總是AG,5'-GT...AG-3'

利用Augustus(http://augustus./) 包括人、大型哺乳動(dòng)物、植物、鳥類、真菌基因組等

訓(xùn)練集:http://augustus./datasets/

除了基因預(yù)測(cè),還可以用于從頭預(yù)測(cè),加入cDNA和EST序列,輔助提高預(yù)測(cè)準(zhǔn)確度

一般可以選擇多個(gè)工具進(jìn)行預(yù)測(cè),因?yàn)轭A(yù)測(cè)是非常關(guān)鍵的一步,會(huì)影響到下游基因功能注釋部分,發(fā)表后別人還會(huì)以此來進(jìn)行研究,因此,對(duì)于一個(gè)新的基因組,預(yù)測(cè)錯(cuò)誤會(huì)產(chǎn)生“蝴蝶效應(yīng)”


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多