近日,國際知名期刊《核酸研究》(Nucleic Acids Research,IF:16.971)在線發(fā)表了北京大學(xué)孔雷課題組與中國科學(xué)院計算技術(shù)研究所趙屹研究員課題組合作開發(fā)的基因功能富集平臺KOBAS-i (網(wǎng)址http://kobas.cbi.pku.edu.cn/ 或http:///kobas),文章題為“KOBAS-i: intelligent prioritization and exploratory visualization of biological functions for gene enrichment analysis”。 KOBAS是國際上最早的發(fā)布的基因通路富集工具之一,最初的版本由北大魏麗萍教授帶領(lǐng)的生物信息團(tuán)隊設(shè)計和開發(fā)。最早的standalone版算法于2005年發(fā)表于Bioinformatics 雜志,該版本包括一個KO-Based注釋系統(tǒng)和基于Over Representation Analysis (ORA)方法的富集分析算法。KOBAS 的Server版 1.0 和2.0分別于2006年和2011年在Nucleic Acids Research上發(fā)布,在基因集合富集分析領(lǐng)域內(nèi)有較大影響力,總的SCI引用超過2000次,屬于國產(chǎn)生物信息軟件的佼佼者。 本次升級的版本KOBAS-i是由中科院計算所的團(tuán)隊與北大團(tuán)隊合作完成。與以往不同的是,此版本未沿用數(shù)字版本命名的方式,而是命名為KOBAS-i,在這里i的含義是 intelligent version,表明與既往兩個版本相比,KOBAS-i在算法上有顯著的升級。該版本除了保留之前版本的ORA富集分析算法,還增加了基于機(jī)器學(xué)習(xí)算法的整合富集分析算法。開發(fā)團(tuán)隊成員表示,未來KOBAS將在AI驅(qū)動的代謝通路分析算法上不斷尋求創(chuàng)新。 KOBAS-i的功能更新主要解決了現(xiàn)有富集分析工具存在的三大問題。 基因功能富集分析領(lǐng)域長期存在的一個問題是,現(xiàn)存的眾多富集分析工具在同一數(shù)據(jù)集上結(jié)果差異較大,KOBAS-i則利用機(jī)器學(xué)習(xí)算法為解決此問題提供了一個全新的思路。在KOBAS-i出現(xiàn)之前,功能富集分析算法有三大主流方法。ORA方法最早被提出,應(yīng)用范圍也最廣。該方法的優(yōu)點(diǎn)是算法簡潔易實現(xiàn),對輸入數(shù)據(jù)要求較低,只需要輸入一個基因列表就能工作。但ORA方法的缺點(diǎn)有兩方面,一是ORA 假設(shè)各基因是相互獨(dú)立的,不會互相影響,這是不符合真實世界實際情況的;二是ORA 輸入的基因列表通常是根據(jù)p-value等指標(biāo)來人為選定閾值從整體基因中選取,因而結(jié)果會受選取值的影響。 為了解決人為設(shè)定p-value閾值影響分析結(jié)果的問題,研究人員提出了Functional Class Scoring(FCS)方法。FCS算法的代表是GSEA方法,給定一個排好序的基因列表L和一個預(yù)先定義好的基因集合S(通常是同屬一個信號或代謝通路的基因,或者在同一 GO 目錄下的基因等)。GSEA的目標(biāo)是判斷 S 中的成員基因是隨機(jī)分布在列表 L 中,還是傾向于集中在列表的頭部或者尾部。相比于ORA算法,F(xiàn)CS輸入的是全部基因列表L及其表達(dá)量等信息。因此FCS解決了人為設(shè)定p-value閾值影響分析結(jié)果的問題,但其算法仍然假定各基因之間是獨(dú)立的,互相之間不會影響表達(dá)量。 為了解決基因之間互相關(guān)聯(lián)的問題,研究人員又提出了Pathway Topology Based(PT)方法。PT分析方法考慮了基因在Pathway中的上下游關(guān)系,或者基因之間的相互作用關(guān)系,并利用這些信息對基因進(jìn)行綜合打分,然后仍然利用ORA或者FCS方法對打分后的基因進(jìn)行富集分析。PT方法雖然考慮了基因之間存在的相互影響關(guān)系,但由于現(xiàn)有知識的局限,PT方法整合的基因相互作用網(wǎng)絡(luò)通常是不完整和有局限性的,因此不同的PT方法在分析同一數(shù)據(jù)集時,結(jié)果差異也比較大。這樣研究人員在使用和選擇不同的富集分析工具時,得到的分析結(jié)果也往往不一致,如何采信不同的結(jié)果,往往依賴于用戶的主觀判斷,這就給研究帶來實際的困難。 為了解決這個問題,KOBAS-i引入了團(tuán)隊前期發(fā)表的集成學(xué)習(xí)算法CGPS,這是首個基于通路和表型的先驗知識構(gòu)建的GSE(gene set enrichment)集成分析算法。CGPS整合了七種廣泛使用的FCS方法:GSEA、GSA、PADOG、PLAGE、GAGE、GLOBALTEST和SAFE,以及兩個著名PT方法:GANPA和CEPA,并將上述方法的評分用集成學(xué)習(xí)生成一個綜合評分,命名為R score。R score是基因集與實驗分組的相關(guān)性度量,越大的 R score值表示更高相關(guān)性。利用R score,用戶可以統(tǒng)一客觀的度量不同富集分析方法的結(jié)果。CGPS不僅是一種統(tǒng)計集成模型,同時還是一種數(shù)據(jù)學(xué)習(xí)模型,能夠智能地從已知通路和樣本之間的關(guān)系中學(xué)習(xí)。與十種廣泛使用的單獨(dú)方法和兩種集成方法相比,CGPS中的R score在120個模擬數(shù)據(jù)集和45個真實數(shù)據(jù)集上,能特異性發(fā)現(xiàn)其他GSE方法遺漏的生物學(xué)功能。 基因功能富集分析領(lǐng)域需要解決的另一問題是如何合理的歸類富集分析結(jié)果。基因功能富集分析往往會得到幾十甚至上百個可能與研究者實驗分組相關(guān)的代謝通路,這就給研究人員進(jìn)行進(jìn)一步研究帶來很大困難。如果能有合適的算法幫助研究者對代謝通路進(jìn)行合理聚類和歸并,將能使幫助研究者排除噪聲,聚焦其所關(guān)心的具體生物學(xué)問題。KOBAS-i通過對富集分析結(jié)果進(jìn)行智能聚類,推出新形式的功能富集圖cirFunMap。為了幫助用戶理解富集分析結(jié)果和聚焦關(guān)鍵生物學(xué)功能,KOBAS-i拓展了下游的交互探索可視化的過程,首次在線定義并集成了代謝通路聚類的可視化策略,以landscape的形式呈現(xiàn)不同的富集條目,及條目之間的關(guān)聯(lián)。用戶可以在提交的數(shù)據(jù)富集完成后,以個體視角交互式的方法探索并篩選數(shù)據(jù)中所隱藏的功能。在文章中,研究團(tuán)隊給出了一個利用阿爾茨海默病的基因列表和芯片表達(dá)譜數(shù)據(jù),分別進(jìn)行富集并繪制出cirFunMap圖的demo,其可視化圖能夠簡潔而清晰表示出功能富集的結(jié)果。 基因功能富集分析領(lǐng)域存在的一個通常容易被忽視,但非常重要的問題是注釋數(shù)據(jù)庫的更新問題。如果分析工具所使用的注釋數(shù)據(jù)庫不能及時更新,將會導(dǎo)致用戶無法得到全面的分析結(jié)果,進(jìn)而會影響研究的順利進(jìn)行。KOBAS-i整合了最新的KEGG數(shù)據(jù)庫,將支持的物種從1327擴(kuò)展到5944個,為5944個物種提供KEGG功能通路信息,71個物種提供GO注釋信息。KOBAS-i支持Gene Symbols、Entrez ID、Fasta等多種形式作為輸入進(jìn)行功能富集分析。同時,為了降低單機(jī)版安裝的復(fù)雜度,KOBAS-i提供了另一種無需安裝的Docker鏡像版本。在網(wǎng)站的服務(wù)方面,KOBAS-i放棄原有的PHP實現(xiàn),改為接口化REST API的設(shè)計,以備后續(xù)的權(quán)限化、以及遠(yuǎn)程接口化的調(diào)用。任務(wù)的排隊機(jī)制進(jìn)一步梯度化,將BLAST任務(wù)和富集任務(wù)進(jìn)行分隊列調(diào)度,能夠?qū)崿F(xiàn)近乎實時化的富集結(jié)果的輸出。 此外,為了克服可能的網(wǎng)絡(luò)故障,除了原有的官方地址http://kobas.cbi.pku.edu.cn/,KOBAS研發(fā)團(tuán)隊還新構(gòu)建了一個鏡像服務(wù)地址http:///kobas。KOBAS-i工作流程與操作指南詳見文章原文:http://cademic./nar/article/49/W1/W317/6292104。 · END ·
|
|