很多人提及生物信息分析都覺得像是黑匣子一樣,未知而神秘,今天就讓我們來解開它神秘的面紗,進(jìn)入腫瘤NGS生物信息數(shù)據(jù)分析的世界暢游一番。 腫瘤NGS生信分析事實(shí)上是屬于人類基因組重測序分析的一種,更近一步,是針對靶向捕獲高通量測序數(shù)據(jù)的分析。舉個例子,仿佛是拿著一個“分子放大鏡”,根據(jù)”自己的意圖”,隨便找人類基因組上的一段來看個究竟。 那么從高通量測序儀產(chǎn)出數(shù)據(jù)之后,是如何實(shí)現(xiàn)“看個究竟”的目的呢?腫瘤NGS生信數(shù)據(jù)分析是通過如下幾個關(guān)鍵環(huán)節(jié)來完成的: 1.數(shù)據(jù)質(zhì)控 每一例樣本經(jīng)過實(shí)驗(yàn)處理后就會上機(jī)測序,之后獲得的原始下機(jī)數(shù)據(jù)流轉(zhuǎn)到生物信息環(huán)節(jié)就變成了格式為fastq的文件,fastq是一種存儲了生物序列(通常是核酸序列)以及相應(yīng)的質(zhì)量評價的文本格式,長成如下圖的樣子: 其中第二行就是我們測序得到的序列,但是這時得到的數(shù)據(jù)我們還不能直接使用,需要對這些數(shù)據(jù)進(jìn)行預(yù)處理,比如過濾掉測序時錯誤率比較高的序列啊(低質(zhì)量序列)、信號模糊無法確定的序列?。ê琋過多reads)、實(shí)驗(yàn)時連接引入的引物序列?。╝dapter過濾)等等,這樣保留下來的數(shù)據(jù)用于后續(xù)分析才能更靠譜。 2.序列比對 我們把上述得到的一條條ATCG組成的序列與人類參考基因組進(jìn)行比對,這樣我們就能將每條測序得到的序列回貼到人類參考基因組序列上。在實(shí)驗(yàn)PCR過程中會引入重復(fù)序列,這些序列均由同一DNA模版復(fù)制而來,將這些重復(fù)序列標(biāo)記出來,就獲取到由非重DNA模版組成的序列集合,也就是傳說中的Unique Mapping Reads。 3.變異檢測 在進(jìn)行序列比對之后,我們就可以了解到每一條序列的位置,是否有和人類參考序列存在差異的地方,這些差異中就包含了我們感興趣的變異位點(diǎn);比如在7號染色體的55249071處發(fā)現(xiàn)了堿基和人類參考序列不同,在參考序列中這一位置原本是堿基C(野生型),而患者中發(fā)現(xiàn)一定比例的序列中此位置是堿基T(突變型),那么說明在此位置發(fā)生了C>T的突變,如圖所示: 又如我們發(fā)現(xiàn)在人類參考序列的某些位置上存在的DNA序列在待測樣本數(shù)據(jù)中看不到,也就表明此樣本發(fā)生了相應(yīng)的缺失變異,如圖所示: 當(dāng)然這一切的識別過程均由復(fù)雜的統(tǒng)計(jì)模型或者人工智能支持的算法來處理,最終識別出真正的變異位點(diǎn),呈現(xiàn)出上述描述的可視化界面(IGV: Intergrative Genomics Viewer)。 4.變異注釋 前面我們提到序列被定位,被識別到突變,但是這一個個字母的變化帶來了什么樣的影響呢?為此我們就需要把每一個突變都進(jìn)行注釋(也就是解釋說明),比如這個突變是否參與編碼蛋白,是否影響氨基酸的變化,原來的氨基酸是什么,變成了什么等等,將突變按照國際標(biāo)準(zhǔn)注釋后我們就獲取到了待測樣本最終的檢測結(jié)果,比如上述提及的7號染色體55249071處發(fā)生C>T的突變就是我們熟知的EGFR T790M熱點(diǎn)突變。 現(xiàn)在大家對腫瘤生物信息數(shù)據(jù)分析有了一定的了解了嗎?想知道每一個環(huán)節(jié)的具體分析原理嗎,每一環(huán)節(jié)的操作差異會對檢測結(jié)果產(chǎn)生何種影響嗎?敬請期待我們的下一次分享噢。 |
|