日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

文章解讀 | TCGA的機(jī)器學(xué)習(xí):檢測泛癌Ras通路激活化

 生物_醫(yī)藥_科研 2018-12-15

研究亮點(diǎn)

基因表達(dá)的機(jī)器學(xué)習(xí)模型能助力精準(zhǔn)腫瘤學(xué)。本文建立的模型能識(shí)別TCGA數(shù)據(jù)庫里的腫瘤和細(xì)胞系中的Ras激活;此模型能鑒別擬表型Ras激活事件,例如NF1 loss;此方法描繪了Ras通路的各種變異,并且可以拓展到其他通路的研究。

研究背景

精準(zhǔn)腫瘤學(xué)通過基因組證據(jù)來為癌癥病人匹配特定的療法,然而截止至今它僅僅使相對(duì)低比例的病人獲益。盡管在臨床上很有前景,精準(zhǔn)腫瘤學(xué)缺少完整準(zhǔn)確的匹配策略,并且未能識(shí)別許多用其他方法可以匹配到的病人。覆蓋數(shù)千腫瘤的轉(zhuǎn)錄組測量編目,在系統(tǒng)性的生物學(xué)上促成了對(duì)分子擾動(dòng)的下游結(jié)果的透視。用轉(zhuǎn)錄組狀態(tài)來檢測這些擾動(dòng),可以使精準(zhǔn)腫瘤學(xué)更準(zhǔn)確、完整地匹配病人與有效療法。研究者用了TCGA(The Cancer Genome Atlas Research)癌癥組織的大范圍腫瘤數(shù)據(jù)來建立、評(píng)估可以基于異常基因和通路功能來將腫瘤分類的統(tǒng)計(jì)模型。一些策略使用了來自個(gè)別癌癥類別的數(shù)據(jù),如在結(jié)腸癌中的KRAS異常和成膠質(zhì)細(xì)胞癌中的NF1功能異常的基因表達(dá)特征。2017年有文章提出了一個(gè)非監(jiān)督方法以分解細(xì)胞系的基因表達(dá)狀態(tài),以此來定位通路活性。在本文中研究者將介紹一種用彈性網(wǎng)絡(luò)懲罰邏輯回歸分類器來從各類型腫瘤組織的基因表達(dá)芯片數(shù)據(jù)中學(xué)習(xí)基因特征和通路改變。研究者將他們的方法應(yīng)用在各癌癥類型來學(xué)習(xí)一種獨(dú)立的通路異常的泛癌特征。研究者表明此方法可以被用來鑒別擬表型變體,同時(shí)只需要基因表達(dá)數(shù)據(jù)來推理出新數(shù)據(jù)即可。他們用了此方法來檢測Ras通路的泛癌激活。

Ras通路在很多不同的癌癥類型中頻繁改變。該通路常通過KRAS,NRAS或HRAS的獲得功能性變異和NF1的失去功能性變異來激活,使細(xì)胞增加翻譯輸出和未被查驗(yàn)的細(xì)胞增殖。具體的癌癥類型,像胰腺癌,黑色素瘤,甲狀腺腫瘤,肺腺癌,結(jié)腸癌,已經(jīng)為人所知地很大程度上受Ras通路基因的突變所驅(qū)動(dòng)。此外,Ras通路的突變被觀察到是腫瘤形成的早期事件,并且與低存活率、治療抵抗等相關(guān)。因?yàn)镽as通路無所不在地失調(diào),發(fā)展出特定的療法靶點(diǎn)是國家癌癥研究所的初衷。然而,Ras也是眾所周知地很難決定靶點(diǎn),精確檢測其故障是其中最重要的一環(huán)。

最直接的評(píng)估Ras激活的方法是有Ras靶向測序。然而,這些方法未能檢測在那些擬表型Ras激活突變的基因中的未知變異。本研究描述了一種集成大量RNA測序、拷貝數(shù)和點(diǎn)突變數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。研究者宣稱此方法能夠檢測Ras激活的泛癌。這個(gè)分類器同樣能鑒別TCGA的NF1擬表型事件。人工精選的Ras通路基因致癌變異相比于未知重要性的變異,被分配了更高的分類得分。研究者表示此方法還可應(yīng)用于其他的癌癥相關(guān)基因和通路。例如,TCGA的DNA損傷修復(fù)研究分析小組就在TP53失活的檢測中應(yīng)用了此方法。

研究成果

1.機(jī)器學(xué)習(xí)模型預(yù)測通路活性

此模型用TCGA數(shù)據(jù)的33種腫瘤類型的9075個(gè)腫瘤樣本,基于受彈性網(wǎng)絡(luò)懲罰調(diào)節(jié)的邏輯回歸分類器架構(gòu)。轉(zhuǎn)錄組數(shù)據(jù)被用來描述腫瘤表達(dá)狀態(tài)并訓(xùn)練分類器以檢查與異常通路活性符合的下游基因表達(dá)模式(如圖1A)。算法結(jié)合基因價(jià)值分?jǐn)?shù),或比重,來綜合學(xué)習(xí)如何將異常的與野生型的表達(dá)模式分隔開。陽性訓(xùn)練集數(shù)據(jù)包括含非沉默體細(xì)胞突變(如圖1B)以及致癌基因拷貝數(shù)增加和抑癌基因拷貝數(shù)大量減少的腫瘤樣本。


圖1A&1B. 分類器的構(gòu)建

2.檢測Ras激活化的泛癌

研究者通過KRAS,HRAS和NRAS的突變和拷貝數(shù)增加來訓(xùn)練了分類器,這三種核心Ras基因在各癌癥類別的突變比例差異極大。根據(jù)TCGA數(shù)據(jù)庫顯示,KRAS突變?cè)谝认侔?2%)、結(jié)腸型癌(45%)、直腸腺癌(42%)、肺腺癌(31%),而NRAS突變通常是在黑色素瘤(31%)上。研究者針對(duì)特定腫瘤類型里野生型與Ras突變腫瘤進(jìn)行差異表達(dá)分析。

在分類器中,為了執(zhí)行更平衡的分類表示法,為了減少度量上的膨脹,研究者用了來自33個(gè)癌癥類型中的16個(gè)(圖2A)。同時(shí)他們也基于絕對(duì)中位差用了8000個(gè)最具表達(dá)多樣性的基因。研究者從中挑出10%(n=476)作為測試集,90%(n=4283)作為訓(xùn)練集。他們執(zhí)行了5-折交叉驗(yàn)證,并將驗(yàn)證結(jié)果和訓(xùn)練集、測試集的表現(xiàn)共同展示。他們?cè)u(píng)估了在各癌癥類型中通過訓(xùn)練篩選得到的最終分類器。

最后,這個(gè)分類器展現(xiàn)出很好的表現(xiàn),它的交叉驗(yàn)證和測試集在受試者工作特征曲線(AUROC)中的下半部分超過84%并且有超過63%的部分位于精準(zhǔn)召回曲線(AUPR)下半?yún)^(qū)域(圖2B)。對(duì)于最初從訓(xùn)練中篩出的樣本,同樣觀察到可觀的表現(xiàn),受試者工作特征曲線中75.2%與精準(zhǔn)召回曲線24.7%。因此,這個(gè)分類器檢測到的在組織中的Ras激活信號(hào)在訓(xùn)練中沒有顯示。在最終分類器的9075個(gè)樣本中,研究者觀察到86.7%在受試者工作特征曲線和61.2%精準(zhǔn)召回曲線。


圖2. 彈性網(wǎng)絡(luò)懲罰分類器的訓(xùn)練和測試

對(duì)彈性網(wǎng)絡(luò)懲罰分類器的訓(xùn)練構(gòu)建出了數(shù)據(jù)稀疏性的分類器,只有185個(gè)基因有助于分類。比重大于0的基因和協(xié)變量可以被解讀為對(duì)Ras激活的腫瘤的正調(diào)節(jié),與之相對(duì),比重為負(fù)的基因可被視為含野生型Ras的腫瘤的特征(圖2C)。然而,對(duì)系數(shù)的解讀必須要謹(jǐn)慎,因?yàn)閺椥跃W(wǎng)絡(luò)調(diào)整的方法導(dǎo)致了稀疏性,這意味著此結(jié)果只能代表一個(gè)與Ras激活相關(guān)基因的子集。

研究者還把將訓(xùn)練好的分類器用來獨(dú)立地做每種癌癥類型的泛癌分類。指定癌癥類型和泛癌分類器都在各癌癥類型中有多樣化的表現(xiàn),同時(shí)泛癌模型在約半數(shù)的比較中勝過癌癥類型內(nèi)部最優(yōu)模型(圖2D)。

   

3.Ras分類器基準(zhǔn)分析

研究者用了幾種分析手段來評(píng)估Ras分類器的穩(wěn)健性。一個(gè)虛無模型在隨機(jī)混淆的基因表達(dá)矩陣中用抵抗測試和交叉驗(yàn)證來得到了50%受試者工作特征曲線和20%精準(zhǔn)召回曲線的結(jié)果。這表明了此模型在基線上的強(qiáng)大表現(xiàn)。他們也發(fā)現(xiàn)分類器在Ras突變和Ras復(fù)制數(shù)增長上的表現(xiàn)相似,Ras突變的模型表現(xiàn)最好。這個(gè)模型把KRAS, NRAS, 和HRAS還有另外11個(gè)Ras病變基因從表達(dá)矩陣中選出的能力很強(qiáng)。而表現(xiàn)也未被參數(shù)信息影響。

模型間基因系數(shù)存在聯(lián)系。在復(fù)制數(shù)模型中的高比重正向基因都在12號(hào)染色體的KRAS周圍,導(dǎo)致復(fù)制數(shù)事件的假象,而其另一個(gè)原因是只發(fā)生正向拷貝數(shù)的樣本量過小。研究者發(fā)現(xiàn),舍棄不同Ras通路基因的不同模型中基因系數(shù)具有相似性。表達(dá)差異分?jǐn)?shù)和學(xué)習(xí)到的系數(shù)很相近,但會(huì)比稀疏性分類器識(shí)別更多基因??傊?,分類器隨表達(dá)類型而效果不同,但是在將基因輸入表達(dá)矩陣中都很強(qiáng)力,不依賴協(xié)變量。和表達(dá)差異分析包含的基因類似但更少。

 

圖3. Ras野生型與突變型與Ras分類器分?jǐn)?shù)的相關(guān)性

4.檢測細(xì)胞系中的Ras激活

研究者用兩個(gè)細(xì)胞系數(shù)據(jù)集來檢測訓(xùn)練好的分類器是否可以用在細(xì)胞系上。首先將分類器應(yīng)用在10個(gè)小導(dǎo)管上皮細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中。該分類器正確地將10個(gè)樣品中的9個(gè)分類(p=1.16e-2)(如圖3A),并將所有含突變的樣品排序在野生型之前。

接著研究者將分類器應(yīng)用在包含表達(dá)和突變數(shù)據(jù)的來自于癌癥細(xì)胞系百科全書(CCLE)的737個(gè)不同細(xì)胞系的RNA測序數(shù)據(jù)中(如圖3B)。分類器顯著性地給突變Ras分配了更高分?jǐn)?shù)(p=6.35-36)。393個(gè)預(yù)測到的野生型中,357個(gè)是事先被標(biāo)記的野生型(陰性預(yù)測值=90.8%)。然而344個(gè)預(yù)測突變中只有153個(gè)突變是被事先標(biāo)記好的突變(準(zhǔn)確率44.5%)??偣?,737個(gè)中510個(gè)細(xì)胞系預(yù)測正確(69.2%)。在此情況下,低準(zhǔn)確度可能表明此分類器未能成功推廣;或者分類器可能成功識(shí)別了這些擬表型,他們?cè)谠u(píng)估觀點(diǎn)中呈陰性,但卻是研究者本想捕捉到的那些。

為了探明哪種可能性為真,研究者檢查了BRAF(一個(gè)特點(diǎn)鮮明的致癌下游Ras基因)的突變狀態(tài)。BRAF變異的擬表型Ras會(huì)被記為陰性,并且如果他們?cè)诜诸惼鞯呐琶泻芨撸瑫?huì)減少上述觀察到的準(zhǔn)確度。事實(shí)上,與BRAF野生型相比,分類器顯著性地將高分分配給了BRAF變異細(xì)胞系(p=1.16e-11)。在191個(gè)假陽性中,56個(gè)有BRAF變異(29.3%)。剩下的假陽性指向要么是腫瘤錯(cuò)配,要么是腫瘤還藏有其他擬表型變異。接下來,研究者測試了CCLE藥理學(xué)反應(yīng)數(shù)據(jù)來決定Ras分類器分?jǐn)?shù)是否具有對(duì)MEK抑制劑的敏感預(yù)測性。研究者觀察到含Ras分類器分?jǐn)?shù)與兩個(gè)MEK抑制劑(selumetinib和PD-0325901)的敏感性有相關(guān)性(如圖3C&3D)。相關(guān)性主要是受到Ras基因野生型的細(xì)胞系驅(qū)動(dòng)的,這意味著幾個(gè)藥物敏感的細(xì)胞系可能是被僅針對(duì)Ras基因測序漏掉了。將上述分析整理,對(duì)額外突變和Ras野生型細(xì)胞系藥物反應(yīng)數(shù)據(jù)的評(píng)估強(qiáng)烈顯示在這次分析的低準(zhǔn)確度與擬表型事件的鑒別有關(guān)。

最后,分類器將34個(gè)攜帶Ras突變的細(xì)胞系打分為野生型。研究者觀察到34個(gè)中的22個(gè)(64%)假陰性細(xì)胞系攜帶COSMIC數(shù)據(jù)庫中收錄的變異。與之相對(duì),152個(gè)假陽性中的144個(gè)(95%)被發(fā)現(xiàn),這個(gè)比例顯著性高于假陰性的發(fā)現(xiàn)比例。因此這個(gè)分類器檢測到了變異水平分辨率的信號(hào)。

 

圖4. Ras通路突變與復(fù)制數(shù)與Ras分類器打分關(guān)系

5.其他Ras通路變異擬表型的Ras激活

這個(gè)Ras分類器尤其能檢測在CNS腫瘤中的NF1-丟失事件。而且表現(xiàn)比得上用特定癌癥模型和泛癌模型構(gòu)建的NF1分類器(圖4A)。這些腫瘤并不包含在Ras分類器訓(xùn)練集中。與NF1-特異分類器相比,卵巢癌、結(jié)腸腺癌和子宮內(nèi)膜癌中的NF1-失活事件檢測效果也有所提升(圖4A)。

通過對(duì)38個(gè)核心Ras通路基因的精選的變異進(jìn)行分類打分,研究者觀察到KRAS、NRAS、HRAS和BRAF中的致癌變異都得到高分(圖4B)。然而,在THCA中的BRAFV600E 突變被壓倒性地被預(yù)測為Ras野生型。研究者將兩個(gè)BRAF-主導(dǎo)的癌癥類型(甲狀腺癌和黑色素瘤)去除后重訓(xùn)練了一個(gè)分類器。在這個(gè)模型中,研究者觀察到THCA、BRAF、V600E突變被預(yù)測為含Ras激活,這和之前對(duì)BRAF功能以及對(duì)細(xì)胞系的分析保持了一致。

最后,在野生型的KRAS、NRAS和HRAS中,研究者觀察到Ras分?jǐn)?shù)在其他通路基因的后續(xù)突變后增加了;在KRAS、NRAS和HRAS突變的樣本中,分?jǐn)?shù)并沒有在出現(xiàn)其他附加的通路突變之后增加(圖4C)。然而,在其他Ras通路基因中更多的拷貝數(shù)事件導(dǎo)致了Ras突變樣本的分類器低分(圖4D)。這些結(jié)果可能暗示了在Ras通路上Ras自己以外的基因的多次突變可能會(huì)導(dǎo)致Ras激活表型的增加。

討論

這個(gè)機(jī)器學(xué)習(xí)方法構(gòu)建的分類器不僅能應(yīng)用在檢測Ras激活,同時(shí)也能廣泛地應(yīng)用在擬表型、細(xì)胞系等其他基因或通路研究上。研究結(jié)果提供了一個(gè)有效的生物標(biāo)記應(yīng)用,它可用于揭露可能隱藏的被測序所忽略的響應(yīng)者。

跟其他被推薦的方法一樣,此方法也會(huì)被以往文獻(xiàn)不準(zhǔn)確的資料影響。研究者克服了在甲狀腺癌的BRAF檢測的不利限制。BRAF突變被熟知為激活ERK,且不應(yīng)分類為野生型Ras.本研究建議在預(yù)測的是混淆突變的情況下,最好在訓(xùn)練時(shí)保留一個(gè)癌癥類型。通過保留這種數(shù)據(jù),不需要重建用BRAF V600E突變作為陽性例子的新分類器,這可能有助于防止分類器不斷擴(kuò)大矩陣規(guī)模的蔓延過程。此外,并不清楚如何去最適當(dāng)?shù)馗鶕?jù)高度變異的表型來進(jìn)行調(diào)整。這些腫瘤更可能含有Ras突變。這個(gè)問題可能可以通過提前分離不同來源的變異來回避。

當(dāng)多重突變發(fā)生在Ras通路基因時(shí),腫瘤展示出與增加的Ras活性相關(guān)的轉(zhuǎn)錄模式。這和對(duì)觀察到的拷貝數(shù)事件相反。很多KRAS, NRAS, 和HRAS得到了低分,這或許表示要么劑量反應(yīng)抵消了超激活,要么準(zhǔn)確的Ras分類受到堿基替換事件的抑制。

總之,研究者展示了一個(gè)可以用轉(zhuǎn)錄組數(shù)據(jù)預(yù)測大量腫瘤中Ras 活性的機(jī)器學(xué)習(xí)方法。這個(gè)方法或能避免使用多種基因組測量來檢測Ras激活并識(shí)別更多有Ras激活的病人。

小編評(píng)論

本文用機(jī)器學(xué)習(xí)的方法來構(gòu)建了彈性網(wǎng)絡(luò)懲罰的分類器,開創(chuàng)了在Ras通路研究上的一個(gè)新應(yīng)用。而更可貴的是,這個(gè)分類器經(jīng)TCGA的其他小組應(yīng)用,在其他表達(dá)通路上也有不錯(cuò)的表現(xiàn)?;蛟S在現(xiàn)階段這種缺乏部分監(jiān)督與標(biāo)準(zhǔn)化的方法無法成為主流的研究辦法,但在測序分析中,它可以作為輔助辦法來查漏補(bǔ)缺,通過模型增加數(shù)據(jù)的可讀性,回避一些傳統(tǒng)方法會(huì)引起的偏差。使研究結(jié)果更多樣化,結(jié)論更可信,為將機(jī)器學(xué)習(xí)應(yīng)用在生物信息學(xué)及醫(yī)學(xué)上提供良好思路。

參考文獻(xiàn)

[1] Way GP, Sanchez-Vega F, La K, et al. Machine learning detects pan-cancer ras pathway activation in the cancer genome atlas[J]. Cell reports, 2018, 23(1): 172.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多