利用機器學習對癌癥進行檢測與分析

taotao_2016 2019-06-29

展開全文

DNA甲基化在基因表達調控中起重要作用，其修飾可導致癌細胞的產生或抑制。

利用機器學習對癌癥進行檢測與分析

介紹

機器學習（ML）在醫(yī)學中的應用現(xiàn)在變得越來越重要。研究人員現(xiàn)在在腦電圖分析和癌癥檢測/分析等應用中使用ML。例如，通過檢查諸如DNA甲基化和RNA測序的生物學數(shù)據(jù)，可以推斷哪些基因可以導致癌癥以及哪些基因可以反而能夠抑制其表達。

本文將向您介紹我如何檢查9個關于TCGA肝臟、宮頸癌和結腸癌的不同數(shù)據(jù)集。所有數(shù)據(jù)集均由UCSC Xena（加州大學圣克魯茲分校網站）提供。對于所考慮的3種不同類型的癌癥中的每一種，使用三個數(shù)據(jù)集，其包含關于DNA甲基化的信息（Methylation450k），基因表達RNAseq（IlluminaHiSeq），最后是外顯子表達RNAseq（IlluminaHiSeq）。然后根據(jù)信息類型而不是癌癥對這些數(shù)據(jù)集進行分組。

我們決定使用這些數(shù)據(jù)集，因為它們具有共同的所有特征并共享相似數(shù)量的樣本。

此外，選擇這些類型的癌癥，因為它們提供了人體基因和染色體特征的不同視圖，因為不同的癌癥位于身體的不同部位。通過這種方式，在本文練習中獲得的分類結果可以推廣到其他形式的癌癥。

DNA甲基化在基因表達調控中起重要作用，其修飾可導致癌細胞的產生或抑制。

分類

每個數(shù)據(jù)集都必須進行轉置和預處理。在形成最終的三個數(shù)據(jù)集之后，進行不同類型的癌癥之間的分類。為了產生這些結果，使用70％的訓練，30％的測試分流比。如表1所示，考慮了許多分類算法。這些結果是利用整個數(shù)據(jù)集和分類器獲得的，旨在正確區(qū)分三種不同類型的癌癥。

利用機器學習對癌癥進行檢測與分析

表1

特征提取

對3個給定的數(shù)據(jù)集進行了主成分分析（PCA），以了解如何僅使用前兩個主成分來影響分類精度結果（表2）。PCA旨在減少數(shù)據(jù)集的維度，同時保留盡可能多的差異。從表2中可以看出，將數(shù)據(jù)維度降低到僅僅兩個特征并不會導致準確性的急劇下降。

利用機器學習對癌癥進行檢測與分析

表2

圖1提供了使用Logistic回歸的PCA分類結果，兩個軸代表PCA創(chuàng)建的兩個主要成分。外顯子表達數(shù)據(jù)集似乎受PCA影響最大，得分最高可達65％。這個結果的原因是不同類之間的主要重疊，如圖1（c）所示。

利用機器學習對癌癥進行檢測與分析

圖1

最后，我決定應用另一種特征提取技術，如t-SNE?？梢詫崿F(xiàn)該技術以將高維數(shù)據(jù)可視化到較低維空間中，從而最大化不同類之間的分離。結果顯示在圖2中，雙軸代表由t-SNE設計的兩個主要組分。三種不同類型的癌癥中的每一種都使用不同的顏色標記（TCGA肝臟= 0，頸椎= 1，結腸= 2）?？梢钥闯觯ㄟ^圖2，t-SNE創(chuàng)建了兩個能夠很好地分離三個不同類的特征。

利用機器學習對癌癥進行檢測與分析

圖2

特征選擇

前面的部分向我們展示了使用整個數(shù)據(jù)集可以實現(xiàn)非常好的分類結果。使用諸如PCA和t-SNE之類的特征提取技術，已經表明可以降低維數(shù)，同時仍然產生可觀的分類分數(shù)。

由于這些結果，我們繪制一個決策樹，用于表示分類中使用的主要特征（具有最大權重的特征），以便仔細查看最重要的特征。由于其在所有三個數(shù)據(jù)集中的分類性能，我決定使用決策樹進行分析。結果可見于圖3（DNA甲基化），圖4（基因表達）和圖5（外顯子表達）。

利用機器學習對癌癥進行檢測與分析

在這些圖中的每一個中，不同的癌癥類型由不同的顏色表示（TCGA肝臟= 0，頸椎= 1，結腸= 2）。所有三種癌癥的特征分布都在樹的起始節(jié)點中表示。只要我們向下移動每個分支，算法就會嘗試使用每個節(jié)點圖下面描述的特征來最好地分離不同的分布。與分布一起生成的圓圈表示在跟隨某個節(jié)點之后正確分類的元素的數(shù)量，元素的數(shù)量越大，圓的大小越大。

利用機器學習對癌癥進行檢測與分析

為了制作這些圖表，我使用了由Terence Parr和Prince Grover創(chuàng)建的dtreeviz.trees庫。我決定使用這個庫，因為它使我能夠可視化樹的每個分支中的特征分布。當試圖分析類之間的差異并觀察算法如何做出其分類決策時，這在生物學范圍內尤其重要。

利用機器學習對癌癥進行檢測與分析

評估

表3提供了在三個不同樹的頂部（前兩個級別）使用的特征的總結。經過仔細研究，查看在線可用數(shù)據(jù)庫后，為每個功能添加了一系列相關注釋（表3）。在cg27427318和chr10：81374338-81375201的情況下，無法找到任何相關信息。

利用機器學習對癌癥進行檢測與分析

表3

從分析的特征推斷出的一些最有趣的結果是：

PFN3已被確定為與cg06105778最接近的基因。根據(jù)李鄒，丁志杰等人的研究。在2010年，Profilins（Pfns）可能被歸類為乳腺癌中的腫瘤抑制蛋白。
根據(jù)Noel J. Aherne，Guhan Rangaswamy等人的'Holt-Oram綜合征男性前列腺癌：TBX5突變的第一臨床關聯(lián)'，TBX5基因'被認為是上調腫瘤細胞增殖和轉移的時候'。突變'[5]。Yu J，Ma X等人的另一項研究。相反，患有TBX5結腸癌的患者存活率低得多。
由Alexa Hryniuk，Stephanie Grainger等人進行的研究。強調'缺失Cdx1導致遠端結腸腫瘤發(fā)生率顯著增加'。

僅使用表3中列出的各個數(shù)據(jù)集中的特性，我最終決定使用PCA和線性判別分析（LDA）將數(shù)據(jù)簡化為二維，并執(zhí)行樸素貝葉斯（NB）和支持向量機（SVM）分類，以了解數(shù)據(jù)的差異程度。表4中提供了結果，表明僅使用數(shù)據(jù)集中最重要的特征可以獲得出色的分類結果（由于噪音降低）。在所有考慮的案例中，保留了83％至99％的原始數(shù)據(jù)差異。

利用機器學習對癌癥進行檢測與分析

表4

結論

整體而言，這個項目取得了非常好的成績。作為進一步的發(fā)展，嘗試其他特征選擇技術（如遞歸特征選擇（RFS）或SVM將是有趣的，以查看是否可以識別其他類型的基因/染色體。對該分析的另一種可能的改進可以是使用包含來自健康受試者的數(shù)據(jù)的數(shù)據(jù)集以及交叉驗證所獲得的結果。