日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

基因注釋軟件GeneMarks和RAST

 追著天使拔毛 2019-10-15

看過(guò)好多大神的博客,對(duì)自己的學(xué)習(xí)幫助很大,這是額的第一篇博客,其實(shí)是額的生物信息學(xué)作業(yè),感覺(jué)還是有用的,分享給大家。

基因組注釋是在得到全基因組序列后首先要做的。它是利用生物信息學(xué)方法,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行功能注釋?zhuān)ɑ蝾A(yù)測(cè)和基因功能注釋兩個(gè)方面。目前已經(jīng)有許多的基因預(yù)測(cè)工具或者在線注釋網(wǎng)站?;蝾A(yù)測(cè)的方法主要有3 種:(1)分析mRNA和EST數(shù)據(jù)直接得到結(jié)果;(2)通過(guò)相似性比對(duì)從已知基因和蛋白質(zhì)序列得到間接證據(jù);(3)基于各種統(tǒng)計(jì)模型和算法從頭預(yù)測(cè),比如隱馬可夫模型。其中通過(guò)相似性比對(duì)得到預(yù)測(cè)基因的方法最常見(jiàn)。例如,現(xiàn)在流行的做法是先通過(guò)Glimmer、GeneMarks等軟件預(yù)測(cè)出基因組的ORF。然后通過(guò)Blast方法將ORF同其他物種的基因進(jìn)行比對(duì)。有同源基因的ORF被注釋為同樣功能的基因,沒(méi)有同源性的ORF被舍去或注釋為假說(shuō)蛋白(hypothetical protein)。由于注釋需要大量的數(shù)據(jù)庫(kù),為了使注釋變得簡(jiǎn)單,一些研究機(jī)構(gòu)將不同功能的注釋軟件整合在一起,提供在線的注釋服務(wù)。如RAST,Xbase等,NCBIPGAAP能提供人工的注釋服務(wù)。這些網(wǎng)站只需要用戶將序列和序列的所屬物種分類(lèi)信息提交即可。注釋好的結(jié)果為gbk 格式文件(包含序列和注釋信息)

GeneMarks軟件的原理都是使用統(tǒng)計(jì)學(xué)模型的從頭預(yù)測(cè)(ab initio)方法,不依賴任何先驗(yàn)知識(shí)和經(jīng)驗(yàn)參數(shù),通過(guò)描述DNA序列中核苷酸的離散模型,利用編碼區(qū)和非編碼區(qū)的核苷酸分布概率不同來(lái)進(jìn)行基因預(yù)測(cè)。GeneMarks是不需要人為干預(yù)和相關(guān)DNArRNA基因的資料即可對(duì)新的細(xì)菌基因組進(jìn)行預(yù)測(cè),測(cè)試表明GeneMarks對(duì)GeneBank數(shù)據(jù)庫(kù)中已注釋的枯草芽孢桿菌的預(yù)測(cè)準(zhǔn)確度達(dá)到82.9%,而對(duì)已通過(guò)實(shí)驗(yàn)方法證實(shí)注釋功能的大腸桿菌的預(yù)測(cè)高達(dá)93.8%,其對(duì)新測(cè)序基因組的預(yù)測(cè)與Glimmer存在同樣問(wèn)題,即相當(dāng)一部分基因在數(shù)據(jù)庫(kù)并不能發(fā)現(xiàn)同源,只能作為假蛋白基因存在。

如何在沒(méi)有明確實(shí)驗(yàn)證據(jù)的前提下鑒定此類(lèi)基因預(yù)測(cè)的準(zhǔn)確性,切實(shí)可行的方法就是綜合利用多個(gè)預(yù)測(cè)軟件對(duì)預(yù)測(cè)結(jié)果進(jìn)行比較,分析其中的異同點(diǎn)。

本研究主要以A.baumanniiACICU染色體序列為例對(duì)基因預(yù)測(cè)與注釋的方法進(jìn)行分析,以找到合適的基因預(yù)測(cè)與注釋的方法。

2.   材料與方法(Methods and Materials

下面利用從NCBI上下載的A.baumanniiACICU全基因組染色體序列(不包含質(zhì)粒序列)(.fasta格式)為例,分別使用GeneMarks(http://topaz./GeneMark/genemarks.cgi)進(jìn)行ORF(開(kāi)放閱讀框)基因預(yù)測(cè),RAST(http://rast./)進(jìn)行功能基因(CDS)注釋?zhuān)瑢?duì)比原結(jié)果進(jìn)行分析。

2.1.使用GeneMarks進(jìn)行ORF預(yù)測(cè)

(1)第一步是上傳A.baumaniiACICU染色體序列,并設(shè)置合適的參數(shù),填加自己的郵箱。全部設(shè)置好之后,點(diǎn)擊[StartGeneMarks]開(kāi)始注釋。如下圖所示:

(2)第一步上傳結(jié)束序列之后,會(huì)出現(xiàn)如下界面,提示序列已成功提交,注釋好的文件會(huì)發(fā)到所填郵箱。

2.2.使用RAST進(jìn)行功能基因注釋

(1)上傳A.baumaniiACICU(.fasta格式)序列,上傳結(jié)束后點(diǎn)擊[Usethis data and go to step 2]進(jìn)行下一步。如下圖所示:

(2)第二步填加必須的的參數(shù),Domain選擇[Bacteria],GeneticCode選擇[11],然后點(diǎn)擊[Usethis data and go to step 3]進(jìn)行下一步操作。如下圖所示:

(3)如下圖所示,選擇好合適的參數(shù)后點(diǎn)擊[Finishthe upload],即可等待結(jié)果,注釋結(jié)束后,其會(huì)發(fā)郵件告知

3.   結(jié)果與討論(Results and Discussion

3.1. 使用GeneMarks預(yù)測(cè)ORF的結(jié)果以及分析

使用GeneMarks進(jìn)行預(yù)測(cè)后,生成了gms.out  gms.out.faa gms.out.fnn gms.out.ps四個(gè)文件:

其中g(shù)ms.out文件如下顯示(其中一部分,使用linux系統(tǒng)cat或者h(yuǎn)ead命令查看):

  Gene      Strand    LeftEnd   RightEnd       Gene        Class

    #                                         Length

    1       -          76         468          393        1

    2       -         506        2974         2469        1

    3       -        3027        4109         1083        1

    4       -        4124       5272         1149        1

    5       -        5370        6767         1398        1

    6       +        7438        7572          135        1

    7       +        7602        7994          393        1

    8       +        8005        8325          321        1

    9       +        8331       10091         1761        1

   10       +       10182       11537         1356        1

 …………

 3711       +     3894879     3896006         1128        1

 3712       +     3896134     3896979          846        1

 3713       -     3897035     3897370          336        1

 3714       -     3897495     3898499         1005        1

 3715       -     3898842     3899849         1008        1

 3716       -     3900105    3901109         1005        1

 3717       +     3901366     3903297         1932        1

 3718       +     3903549     3904106          558        1

其中g(shù)ms.out.faa氨基酸序列文件顯示如下(其中之一):

>gene_3718|GeneMark.hmm|185_aa|+|3903549|3904106    >gi|184156320|ref|NC_010611.1|Acinetobacter baumannii ACICU, complete genome

MNFIDFITNFEQFLPILIQEYGAWVYAILFLIIFSETAFVFMFFLPGDSLLLTVGALCSV

VELMHLGYMITLLTVAATLGYIVNYSIGRHFGNRIFEAKSRFIKKEYLNKTNRYFLQHGG

KTILLARFIPFARSFAPLAAGSSNMSYGKFLIYNVAGAILWICILLTAGYLFGHALIQVT

DFVEN

其中g(shù)ms.out.fnn核苷酸序列如下所示,起始密碼子為ATG,終止密碼子為T(mén)AATGA和TAG(其中之一):

>gene_3718|GeneMark.hmm|558_nt|+|3903549|3904106    >gi|184156320|ref|NC_010611.1|Acinetobacter baumannii ACICU, complete genome

ATGAATTTTATTGATTTTATTACTAATTTTGAACAATTTTTACCTATTTTGATTCAGGAG

TATGGTGCATGGGTTTATGCCATACTCTTTTTGATTATTTTTTCTGAAACTGCTTTTGTG

TTTATGTTCTTTTTACCTGGAGATAGCTTACTTTTAACTGTAGGTGCACTGTGCTCGGTG

GTTGAACTGATGCATCTTGGTTATATGATTACTCTGCTCACCGTTGCAGCAACATTAGGC

TATATCGTCAATTATTCTATTGGCCGCCATTTTGGAAACCGTATTTTTGAAGCAAAATCA

CGTTTTATTAAAAAAGAATATTTGAATAAAACGAACCGCTATTTCTTGCAACATGGCGGTAAAACTATTCTTTTAGCACGTTTTATTCCTTTCGCACGTTCTTTTGCACCCCTCGCTGCCGGCTCAAGCAATATGAGCTATGGAAAATTTTTGATTTACAATGTGGCAGGAGCTATTTTGTGGATCTGCATCCTTTTAACGGCTGGCTACCTATTTGGCCATGCACTCATTCAAGTTACAGATTTTGTTGAAAATTAA

由此可知A.baumanniiACICU全基因組經(jīng)GeneMarks預(yù)測(cè)到了3718個(gè)基因。

3.2.使用RAST進(jìn)行功能基因注釋結(jié)果以及分析

     以上兩圖是使用RAST對(duì)A.baumannii ACICU染色體序列進(jìn)行注釋的結(jié)果菌株A.baumanniiACICU染色體基因組經(jīng)RAST功能基因注釋?zhuān)沧⑨尩?683個(gè)功能基因。其中分布于不同功能子系統(tǒng)(457)的有1831個(gè),確定的基因(non-hypothetical)有1736個(gè),不確定(hypothrtical)的有95個(gè);其余的編碼基因不分布于這些不同功能的子系統(tǒng)中,共有1852個(gè),其中確定的有908個(gè),不確定的有944個(gè)。

3.3.       綜合分析

對(duì)于A.baumaniiACICU染色體序列,由GeneMarks預(yù)測(cè)到3718個(gè)基因,由RAST注釋到3683個(gè)編碼蛋白基因,與原文獻(xiàn)結(jié)果含有預(yù)測(cè)基因數(shù)(ORF)為3758個(gè),其中編碼蛋白質(zhì)的基因數(shù)為3670個(gè)相比有所不同。其中預(yù)測(cè)基因數(shù)比原文獻(xiàn)少了有40個(gè),差別較大,原文獻(xiàn)聯(lián)合使用GeneMarks與Glimmer對(duì)比預(yù)測(cè),效果較好;注釋基因數(shù)相差比原文獻(xiàn)多13個(gè),差別不大,原文獻(xiàn)中綜合使用COG與KEGG數(shù)據(jù)庫(kù)對(duì)預(yù)測(cè)到的蛋白序列進(jìn)行注釋?zhuān)f(shuō)明RAST注釋結(jié)果還是比較可靠的。整個(gè)過(guò)程只是基因注釋的初始工作,要想得到完整準(zhǔn)確的基因注釋結(jié)果,需要使用多個(gè)軟件進(jìn)行注釋?zhuān)瑢?duì)于不能準(zhǔn)確注釋的基因還需要單獨(dú)進(jìn)行注釋?zhuān)詈缶C合分析得到結(jié)果。

參考文獻(xiàn):

1.  黃勇基于高通量測(cè)序的微生物基因組學(xué)研究. 中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院, 2013.

2.  AzizRK, Bartels D, Best AA, Dejongh M, Disz T, Edwards RA, Formsma K, Gerdes S,Glass EM, Kubal M: The RAST Server:Rapid Annotations using Subsystems Technology. Bmc Genomics 2008,9::75.

3.  夏偉: Gluconobacter oxydans 621H全基因組自動(dòng)注釋結(jié)果的分析評(píng)估. 江南大學(xué), 2013.

4.   BesemerJ, Lomsadze A, Borodovsky M: GeneMarkS:a self-training method for prediction of gene starts in microbial genomes.Implications for finding sequence motifs in regulatory regions. American Banker 2001,29:2607-2618.

5.    IaconoM, Villa L, Fortini D, Bordoni R, Imperi F, Bonnal RJP, Sicheritz-Ponten T, DeBellis G, Visca P, Cassone A, Carattoli A:Whole-genomepyrosequencing of an epidemic multidrug-resistant Acinetobacter baumanniistrain belonging to the European clone II group. Antimicrobial Agents and Chemotherapy 2008,52:2616-2625.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多