合作介紹 Zieon是一套高性能的重測(cè)序分析系統(tǒng),整合了華大智造MegaBOLT以及Sentieon軟件這兩套加速方案。該方案包含胚系突變(Germline)與體細(xì)胞突變(Somatic)的全基因組(WGS)、全外顯子組(WES)及Panel靶向測(cè)序數(shù)據(jù)分析,完成從測(cè)序序列文件fq.gz輸入至變異檢測(cè)結(jié)果vcf.gz輸出的計(jì)算以及各項(xiàng)QC流程。通過硬件加速卡,軟件優(yōu)化模塊及多任務(wù)調(diào)度系統(tǒng)進(jìn)行計(jì)算加速,與開源常規(guī)流程相比,Zieon在準(zhǔn)確率提升的同時(shí)可加速46倍左右。 Zieon可提供包括工作站與機(jī)架式在內(nèi)的兩種模式,分別對(duì)應(yīng)中小型用戶與大型用戶的不同使用場(chǎng)景。同時(shí),Zieon提供網(wǎng)頁交互式操作界面和分析報(bào)告,操作簡單,適用于廣大非生物信息分析背景的用戶。 華大智造與Sentieon合作多年,早在2019年發(fā)表的DNBSEQ-T7的性能描述文章中就有展示Sentieon專門為DNBseq開發(fā)的分析流程(doi: https:///10.1101/2019.12.20.885517),在同年的ASHG會(huì)議上雙方又展示了合作開發(fā)的stFLR分析流程。2020年底Sentieon與MegaBOLT團(tuán)隊(duì)接觸并合作,經(jīng)過半年多的研發(fā)與探索,正式發(fā)布了整合了雙方技術(shù)產(chǎn)品的加速方案——Zieon數(shù)據(jù)分析一體機(jī)。 原理介紹 當(dāng)前包括CPU、GPU以及FPGA在內(nèi),有多種計(jì)算構(gòu)架被應(yīng)用在了高通量測(cè)序數(shù)據(jù)分析的流程中,這些不同架構(gòu)硬件對(duì)流程中不同類型的處理模塊也是效率各異。例如,F(xiàn)PGA硬件內(nèi)部采用多流水線計(jì)算結(jié)構(gòu),在“比對(duì)”等邏輯步驟簡單但是并發(fā)數(shù)據(jù)較大的步驟上效率較高,而CPU硬件則對(duì)變異檢測(cè)等需要大量邏輯判斷的步驟更為合適。 效率上的差異也是本次合作的主要技術(shù)思路,將上游比對(duì)工作交給FPGA硬件完成,下游工作交給CPU處理,同時(shí)開發(fā)一個(gè)任務(wù)調(diào)度系統(tǒng)以平衡不同硬件之間的任務(wù)負(fù)載。在本次合作中,雙方團(tuán)隊(duì)詳細(xì)討論并測(cè)試了MegaBOLT和Sentieon模塊的性能,采用合適的模塊組合推出了適合于胚系變異以及腫瘤變異的分析流程供用戶使用。同時(shí),該方案在核心處理流程以外,提供了完善的質(zhì)控?cái)?shù)據(jù)以及基于互動(dòng)頁面的分析報(bào)告。 速度展示 以胚系變異檢測(cè)流程為例,研究團(tuán)隊(duì)采用MegaBOLT-Scheduler連續(xù)投遞30x全基因組下機(jī)數(shù)據(jù),使用Zieon工作站硬件環(huán)境,分別統(tǒng)計(jì)開源GATK方案、MegaBOLT方案、Sentieon方案以及Zieon方案的用時(shí),以每24小時(shí)的處理通量來展示。 可以看出,在不改變硬件環(huán)境的情況下,Zieon方案僅需要52分鐘即可完成一個(gè)全基因組的數(shù)據(jù)分析,相對(duì)于開源GATK方案提速46倍,相比MegaBOLT或者Sentieon也提速2倍左右,顯示了整合方案對(duì)于硬件的高效應(yīng)用。 Zieon工作站單日處理通量高達(dá)2.5T,基本可以匹配T7的測(cè)序通量,配合MGI任務(wù)調(diào)度系統(tǒng),達(dá)到當(dāng)日下機(jī),當(dāng)日分析,當(dāng)日完成的目的。Zieon還提供機(jī)架式部署以針對(duì)更高通量的分析需求,比工作站的通量提升3倍以上。 分析精度 Zieon的胚系變異流程整合了Sentieon DNAscope模塊,以及專門適配DNBseq數(shù)據(jù)的機(jī)器學(xué)習(xí)模型,在分析準(zhǔn)確度上遠(yuǎn)超開源GATK流程,SNP的準(zhǔn)確度超過99.9%,Indel超過99.5%。通過下圖PCR-free 30x的全基因組測(cè)試數(shù)據(jù)可以看出,這套基于機(jī)器學(xué)習(xí)原理的分析流程可以更好的識(shí)別DNBseq測(cè)序數(shù)據(jù)的特定錯(cuò)誤范式,將測(cè)序錯(cuò)誤與真實(shí)的突變精準(zhǔn)的區(qū)分開來。 此外,這套分析流程允許將全基因組的測(cè)序深度降低到20x,通過軟件糾錯(cuò)的方式,達(dá)到或超過30x測(cè)序深度GATK分析流程的準(zhǔn)確度。 深圳華大智造科技股份有限公司CIO 單日強(qiáng)表示: 過去十余年里,測(cè)序技術(shù)快速發(fā)展。以基因測(cè)序儀為基礎(chǔ)工具和平臺(tái),基因組學(xué)研究和應(yīng)用基本實(shí)現(xiàn)了海量數(shù)據(jù)的產(chǎn)出。Zieon基因分析加速平臺(tái),成功結(jié)合華大智造及Sentieon雙方的分析優(yōu)化及加速技術(shù),加速生命時(shí)代的到來。 Sentieon CEO 葉軍表示: 華大智造為基因測(cè)序提供了一個(gè)優(yōu)質(zhì)選項(xiàng),測(cè)序平臺(tái)的多元化有利于整個(gè)產(chǎn)業(yè)的發(fā)展。Sentieon很高興與華大智造的數(shù)據(jù)分析產(chǎn)品有機(jī)結(jié)合,聯(lián)合推出Zieon在運(yùn)算效率和準(zhǔn)確度都達(dá)到最優(yōu)效果。我們期待未來持續(xù)深入的合作,不斷為業(yè)界提供優(yōu)質(zhì)的解決方案。 關(guān)于Sentieon Sentieon致力于解決生物信息數(shù)據(jù)分析中的速度與準(zhǔn)確度瓶頸,通過算法的深度優(yōu)化和企業(yè)級(jí)的軟件工程,大幅度提升NGS數(shù)據(jù)處理的效率,準(zhǔn)確度,和可靠性??偛课挥诿绹韫鹊腟entieon公司成立于2014年7月,團(tuán)隊(duì)成員具有多年的高性能計(jì)算,大數(shù)據(jù)挖掘,和人工智能的經(jīng)驗(yàn)。自成立以來,Sentieon多次贏得precisionFDA國際生物信息挑戰(zhàn)賽的第一名,包括三次臨床多組學(xué)聯(lián)合分析AI建模大賽冠軍,展現(xiàn)了業(yè)內(nèi)頂級(jí)的研發(fā)實(shí)力。Sentieon為來自于分子診斷,藥物研發(fā),臨床醫(yī)療等多個(gè)領(lǐng)域的合作伙伴和科研機(jī)構(gòu)提供軟件解決方案,共同推動(dòng)基因技術(shù)的發(fā)展,實(shí)現(xiàn)“成就精準(zhǔn)數(shù)據(jù),服務(wù)精準(zhǔn)醫(yī)療“的愿景。 關(guān)于華大智造 深圳華大智造科技股份有限公司(簡稱華大智造)秉承“創(chuàng)新智造引領(lǐng)生命科技”的理念,致力于成為生命科技核心工具締造者,專注于生命科學(xué)與生物技術(shù)領(lǐng)域,以儀器設(shè)備、試劑耗材等相關(guān)產(chǎn)品的研發(fā)、生產(chǎn)和銷售為主要業(yè)務(wù),為精準(zhǔn)醫(yī)療、精準(zhǔn)農(nóng)業(yè)和精準(zhǔn)健康等行業(yè)提供實(shí)時(shí)、全景、全生命周期的生命數(shù)字化設(shè)備和系統(tǒng)。 · END · |
|