首先先讓我們從大的picture來(lái)回顧一下,基因組組裝的相關(guān)知識(shí)。 基因組組裝的目的與其成功的決定因素目的:
組裝成功的決定因素:
組裝中會(huì)遇到的“硬問(wèn)題”一般來(lái)說(shuō)生物體的基因組越簡(jiǎn)單越好組裝,像細(xì)菌真菌都比較好組裝。那么影響組裝的硬問(wèn)題有哪些呢? 多態(tài)性
重復(fù)序列
具體例子如下圖: 假如reads S和T 在橙色的片段都具有一長(zhǎng)串A的堿基,那么組裝工具將會(huì)很難識(shí)別,糾結(jié)這兩個(gè)片段是擁有兩個(gè)相同copy的重復(fù)序列,還是他們本來(lái)就是overlap的可以連接起來(lái)。這樣會(huì)造成組裝的錯(cuò)誤。 這里也順帶簡(jiǎn)單介紹一下常見(jiàn)的重復(fù)序列:
一般長(zhǎng)度為500bp左右,人類(lèi)的基因組大概還有1.5Mbp的這種短的重復(fù)片段。
一般長(zhǎng)度為1Kbp左右,人類(lèi)的基因組大概還有1.5Mbp的這種短的重復(fù)片段。
可以長(zhǎng)至40Kbp或者更多 測(cè)序的質(zhì)量
水平的專(zhuān)業(yè)性 需要知道如何安裝組裝的工具,了解組裝工具的工具原理,并且調(diào)試組裝的相關(guān)參數(shù)讓你組裝結(jié)果得到最優(yōu)化,還有選擇合適的組裝工具,都需要一定的專(zhuān)業(yè)水平。 主要的組裝算法重疊序列相連 簡(jiǎn)單來(lái)說(shuō)這種算法就是將所有的reads拿出來(lái),相互比對(duì),找到重疊的reads,然后構(gòu)建長(zhǎng)的連續(xù)的contigs,最后再將contigs組在一起形成scaffolds。這個(gè)過(guò)程可以基于下圖來(lái)進(jìn)行總結(jié): De Bruijn 圖 或者 k-mer 方法 主要的步驟包括:
大概的過(guò)程如下圖: 我該選用哪個(gè)組裝的工具? 目前已經(jīng)開(kāi)發(fā)了很多不同的組裝工具,根據(jù)你的物種或者測(cè)序技術(shù),可以相應(yīng)的選擇不同的工具,一般來(lái)說(shuō)我們可以這樣選擇:
上面只是簡(jiǎn)單通用的推薦,當(dāng)然如果你是專(zhuān)家,你可能還會(huì)使用一些更加個(gè)性化的工具方法。 這期介紹就到這里了,希望大家有所收獲,組裝并沒(méi)有我們想像中那么難,后面會(huì)繼續(xù)給大家?guī)?lái)組裝的實(shí)戰(zhàn)還有評(píng)估等等的教程,敬請(qǐng)大家關(guān)注點(diǎn)贊。 參考資料: 1.https://isugenomics./bioinformatics-workbook/dataAnalysis/GenomeAssembly/Intro_GenomeAssembly.html2.https://environmentalmicrobiome./articles/10.1186/1944-3277-10-18 |
|