日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

用于 DNA 測序的機器學習模型,理論上可以解碼任何測序讀數(shù)中所編碼的數(shù)據(jù)值

 天承辦公室 2023-03-07 發(fā)布于江蘇

圖片

大規(guī)模并行 DNA 測序?qū)е律飳W中高度多重實驗的快速增長。這些實驗產(chǎn)生獨特的測序結(jié)果,需要特定的分析管道來解碼高度結(jié)構(gòu)化的讀數(shù)。然而,尚未開發(fā)出解釋測序讀數(shù)以提取其編碼信息用于下游生物分析的多功能框架。

在這里,不列顛哥倫比亞大學和東京大學的研究人員報告了 INTERSTELLAR(interpretation, scalable transformation, and emulation of large-scale sequencing reads,大規(guī)模測序讀數(shù)的解釋、可擴展轉(zhuǎn)換和仿真);理論上,它可以解碼任何類型的測序讀數(shù)中編碼的數(shù)據(jù)值,并將它們轉(zhuǎn)化為另一種選擇結(jié)構(gòu)的測序讀數(shù)。

INTERSTELLAR 成功地從一系列短讀長和長讀長測序讀數(shù)中提取了信息,并翻譯了單細胞 (sc)RNA-seq、scATAC-seq 和空間轉(zhuǎn)錄組學的那些數(shù)據(jù),從而方便研究人員用不同軟件工具進行分析。INTERSTELLAR 將極大地促進基于測序的實驗的開發(fā)和數(shù)據(jù)分析管道的共享。

該研究以「A universal sequencing read interpreter」為題,于 2023 年 1 月 4 日發(fā)布在《Science Advances》。

圖片

在過去的幾十年里,利用微陣列和高通量 DNA 測序,DNA 條形碼的概念使一系列匯集的生物篩選成為可能。早期的例子包括建立酵母缺失集合,其中每個菌株都被構(gòu)建為在缺失位點具有兩個獨特的 DNA 條形碼。可以匯集條形碼酵母菌株并進行單一生長競爭測定,其個體相對生長變化可以通過競爭前后微陣列或高通量測序測量的條形碼數(shù)量讀出。該策略開創(chuàng)了化學基因組學領(lǐng)域篩選藥物靶基因的先河。

不久之后,同樣的概念也被應(yīng)用于基于哺乳動物細胞培養(yǎng)的全基因組基因敲除和敲除分析。在這些測定中,細胞由編碼短發(fā)夾 (sh) RNA 或 CRISPR-Cas9 引導 (g) RNA 的慢病毒文庫轉(zhuǎn)導。由不同擾動引起的細胞生長可以通過聚合酶鏈反應(yīng) (PCR) 擴增和小 shRNA 或 gRNA 編碼 DNA 片段的測序來大量量化。

此外,產(chǎn)生遠端基因組區(qū)域和與不同因素相關(guān)的 DNA 條形碼的嵌合融合的實驗系統(tǒng),使得研究人員能夠大規(guī)模探索染色質(zhì)構(gòu)象、蛋白質(zhì)相互作用、遺傳相互作用和單分子 RNA 的空間細胞分布。在單細胞和空間基因組學中,單細胞標識符 (ID)、空間 ID 和唯一分子 ID (UMI) 用于唯一標記相應(yīng)的轉(zhuǎn)錄組或基因組 DNA 片段,這導致了單細胞 RNA 測序(scRNA-seq)、scATAC-seq、空間轉(zhuǎn)錄組學和空間基因組技術(shù)的發(fā)展。

上述方法中的每一種都可以同時進行多個實驗并生成測序文庫。來自不同檢測的測序文庫也可以通過將額外的文庫特異性、獨特的 DNA 條形碼融合到每個測序文庫 DNA 中,進一步復用用于單次測序運行。這些實驗的輸出 DNA 分子具有一系列復雜性,其中一些編碼多個信息片段,其組合有時被設(shè)計為通過多個讀?。ɡ?,配對末端讀取和索引讀?。┳x取。

然而,存在一些共同的問題——這些基于測序的實驗中的大多數(shù)方法,都是使用它們自己專有的軟件工具針對特定的序列讀取結(jié)構(gòu)開發(fā)的。雖然許多此類工具具有先進的下游數(shù)據(jù)分析功能,但它們通常不能重復用于概念上相同類型的實驗系統(tǒng)產(chǎn)生的測序讀數(shù)。對于具有改進的性能和不同讀取結(jié)構(gòu)的概念相同的分析,已經(jīng)反復提出新的實驗方法,并且已經(jīng)為它們各自的讀取結(jié)構(gòu)開發(fā)了處理基本相同信息的數(shù)據(jù)分析工具。

在 scRNA-seq 領(lǐng)域尤其觀察到這些輪子的再發(fā)明。這些軟件工具不能交換不同的 scRNA-seq 庫結(jié)構(gòu),也不能通過將它們應(yīng)用于相同的 scRNA-seq 數(shù)據(jù)集來進行交叉驗證。已經(jīng)做出多項努力來開發(fā)能夠分析特定類別實驗的不同讀取結(jié)構(gòu)的靈活軟件工具,例如 UMI-tools、zUMIs、scumi(用于基于 UMI 的 RNA-seq 和 scRNA-seq)和 SnapATAC(對于 scATAC-seq),但它們對于正在進行的產(chǎn)生獨特讀取結(jié)構(gòu)的新實驗的開發(fā)無效。

任何測序數(shù)據(jù)分析都遵循每次讀取中序列片段的識別(例如,在 scRNA-seq reads 中識別細胞 ID、UMI 和 cDNA 編碼區(qū)域)以及提取的序列片段和值(例如,映射到參考基因組和 scRNA-seq 中每個 RNA 種類的 UMI 計數(shù))的下游分析。

因此,不列顛哥倫比亞大學和東京大學的研究人員提出了兩種解決方案:(i) sequencing read interpreter 和數(shù)據(jù)分析工具的開發(fā)——如果一個 read interpreter 只提取在 sequencing reads 中編碼的數(shù)據(jù)值,那么它的數(shù)據(jù)分析 pipeline 應(yīng)該適用于產(chǎn)生相同數(shù)據(jù)結(jié)構(gòu)的其他實驗的 sequencing reads;(ii) read translator 的開發(fā)——如果可以將某種格式的測序 reads 翻譯成另一種 reads 結(jié)構(gòu),則可以使用為特定 reads 結(jié)構(gòu)開發(fā)的現(xiàn)有數(shù)據(jù)分析管道來分析其他 reads 結(jié)構(gòu)?;谶@兩個方案,研究人員開發(fā)了稱為 INTERSTELLAR 的單一通用工具。

圖片

圖示:INTERSTELLAR 的概述。(來源:論文)

任何測序文庫的結(jié)構(gòu)都是通過用序列片段的位置規(guī)定在DNA序列中編碼的信息或使用恒定標記序列對其進行切片來設(shè)計的(否則測序后無法分析文庫)。在對文庫進行測序之后進行任何測定后,提取序列片段并進行錯誤校正以用于下游分析。INTERSTELLAR 完全有能力使用靈活的正則表達式系統(tǒng)和序列段中編碼的值的親本關(guān)聯(lián)來解碼任何這些讀取。

研究人員使用不同的軟件工具對 scATAC-seq、scRNA-seq 和空間轉(zhuǎn)錄組學讀數(shù)進行讀數(shù)翻譯和數(shù)據(jù)分析,并將結(jié)果與原始專有軟件工具分析的原始讀數(shù)進行比較。盡管原始結(jié)果和仿真結(jié)果的總體結(jié)果非常相似,但觀察到的差異程度不同。

圖片

圖示:不同 scRNA-seq 讀數(shù)和軟件工具的交叉評估。(來源:論文)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多