日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

生信小白學(xué)習(xí)系列:如何進(jìn)行基因組組裝?(1)

 yjt2004us 2019-05-15

隨著測(cè)序的發(fā)展,越來(lái)越多的生物體被進(jìn)行基因組進(jìn)行測(cè)序,這些測(cè)序的reads,再被用于組裝或者其它相關(guān)的研究?;蚪M序列組裝是一個(gè)研究的起點(diǎn),如果你研究的物種沒(méi)有參考基因序列,就無(wú)從找到該生物有的基因,進(jìn)行基因的功能分析,然后開(kāi)展下游的群體遺傳,結(jié)構(gòu)差異等等一系列非常有趣的研究。所以說(shuō)組裝好參考基因組是基因組研究的最基礎(chǔ)的事情之一。接下來(lái),希望通過(guò)網(wǎng)上一些教程,和大家熟悉了解一下如何進(jìn)行基因組組裝。

首先先讓我們從大的picture來(lái)回顧一下,基因組組裝的相關(guān)知識(shí)。

基因組組裝的目的與其成功的決定因素

目的:

  • 獲得該生物體完整的基因組序列

  • 注釋蛋白質(zhì)編碼序列(注釋?zhuān)ńY(jié)構(gòu)注釋和功能)非常重要,了解知道蛋白質(zhì)的功能是解決生物學(xué)問(wèn)題的基礎(chǔ))

組裝成功的決定因素:

  • 被測(cè)序物種的基因特性(下個(gè)小節(jié)會(huì)講)

  • 測(cè)序的樣品質(zhì)量

  • 測(cè)序技術(shù)的限制(短序列:短,組裝碎片化;長(zhǎng)序列:費(fèi)用較高,錯(cuò)誤率高)

  • 使用的組裝軟件的合適性

組裝中會(huì)遇到的“硬問(wèn)題”

一般來(lái)說(shuō)生物體的基因組越簡(jiǎn)單越好組裝,像細(xì)菌真菌都比較好組裝。那么影響組裝的硬問(wèn)題有哪些呢?

多態(tài)性

  • 二倍體,甚至多倍體 (物種的基因結(jié)構(gòu)復(fù)雜,染色體有多個(gè)拷貝,基因組重復(fù))

  • 生物體雜合性高

  • 有些物種非常小,你需要收集多個(gè)個(gè)體才能取得足夠的DNA去測(cè)序去組裝出基因組。

重復(fù)序列

  • 重復(fù)序列往往會(huì)“迷惑”組裝的工具 

具體例子如下圖:

假如reads S和T 在橙色的片段都具有一長(zhǎng)串A的堿基,那么組裝工具將會(huì)很難識(shí)別,糾結(jié)這兩個(gè)片段是擁有兩個(gè)相同copy的重復(fù)序列,還是他們本來(lái)就是overlap的可以連接起來(lái)。這樣會(huì)造成組裝的錯(cuò)誤。

這里也順帶簡(jiǎn)單介紹一下常見(jiàn)的重復(fù)序列:

  • SINEs ( Short interspersed nuclear elements)

一般長(zhǎng)度為500bp左右,人類(lèi)的基因組大概還有1.5Mbp的這種短的重復(fù)片段。

  • LINEs (long interspersed nuclear elements)

一般長(zhǎng)度為1Kbp左右,人類(lèi)的基因組大概還有1.5Mbp的這種短的重復(fù)片段。

  • 大片的重復(fù)

可以長(zhǎng)至40Kbp或者更多

測(cè)序的質(zhì)量

  • 不同的測(cè)序技術(shù)有不同的優(yōu)缺點(diǎn)

  • 測(cè)序的深度(有些regions沒(méi)有被很好覆蓋到)

  • 測(cè)序時(shí)候含有的污染(人的,細(xì)菌,真菌病毒等)都會(huì)影響組裝。據(jù)統(tǒng)計(jì),10%的已經(jīng)在文獻(xiàn)中發(fā)表的基因組,都還含有污染。

水平的專(zhuān)業(yè)性

需要知道如何安裝組裝的工具,了解組裝工具的工具原理,并且調(diào)試組裝的相關(guān)參數(shù)讓你組裝結(jié)果得到最優(yōu)化,還有選擇合適的組裝工具,都需要一定的專(zhuān)業(yè)水平。

主要的組裝算法

重疊序列相連

簡(jiǎn)單來(lái)說(shuō)這種算法就是將所有的reads拿出來(lái),相互比對(duì),找到重疊的reads,然后構(gòu)建長(zhǎng)的連續(xù)的contigs,最后再將contigs組在一起形成scaffolds。這個(gè)過(guò)程可以基于下圖來(lái)進(jìn)行總結(jié):

De Bruijn 圖 或者 k-mer 方法

主要的步驟包括:

  • 將reads切成長(zhǎng)度不同的片段(這里叫k-mers)

  • 基于這些k-mers的組合,構(gòu)建De Bruijn 圖

  • 構(gòu)建序列基于重疊的k-mers

  • 基于已經(jīng)構(gòu)建的序列片段,選擇合適的片段,構(gòu)建整個(gè)基因組的序列。

大概的過(guò)程如下圖:

我該選用哪個(gè)組裝的工具?

目前已經(jīng)開(kāi)發(fā)了很多不同的組裝工具,根據(jù)你的物種或者測(cè)序技術(shù),可以相應(yīng)的選擇不同的工具,一般來(lái)說(shuō)我們可以這樣選擇:

  • 如果你組裝的是原核生物基因組,那么可以使用SPAdes,通常該工具比較適合小的基因組。

  • 如果你組裝的是真核生物基因組:

  1. 只使用短序列的reads進(jìn)行組裝:推薦使用MaSuRCA

  2. 只使用長(zhǎng)序列的reads進(jìn)行組裝:推薦使用Canu或者Falcon

  3. 混合使用短序列和長(zhǎng)序列的reads:推薦使用MaSuRCA

  4. 雜合度高的物種推薦使用Platanus

上面只是簡(jiǎn)單通用的推薦,當(dāng)然如果你是專(zhuān)家,你可能還會(huì)使用一些更加個(gè)性化的工具方法。

這期介紹就到這里了,希望大家有所收獲,組裝并沒(méi)有我們想像中那么難,后面會(huì)繼續(xù)給大家?guī)?lái)組裝的實(shí)戰(zhàn)還有評(píng)估等等的教程,敬請(qǐng)大家關(guān)注點(diǎn)贊。

參考資料:

1.https://isugenomics./bioinformatics-workbook/dataAnalysis/GenomeAssembly/Intro_GenomeAssembly.html2.https://environmentalmicrobiome./articles/10.1186/1944-3277-10-18


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多