Hello又跟大家見面了,這次給大家?guī)淼奈墨I解讀是關(guān)于使用一致性聚類方法從單細胞RNA-seq數(shù)據(jù)識別癌癥亞型(Identification of cancer subtypes from single-cell RNA-seq data using a consensus clustering method)。人類癌癥是由那些具有不同分子特征的細胞組成的復(fù)雜生態(tài)系統(tǒng),腫瘤內(nèi)異質(zhì)性的特征對精確癌癥治療來說至關(guān)重要。而scRNA-seq(單細胞RNA測序)可以量化不同細胞群的表達,進而能夠分析細胞之間的差異,單細胞表達數(shù)據(jù)的聚類也能為從大量異質(zhì)細胞中識別細胞類型提供直觀的方法。 文章主要講的是作者提出了一種無監(jiān)督的一致聚類方法——conCluster,用于從單細胞RNA-seq數(shù)據(jù)中識別癌癥亞型。簡單來說,conCluster首先使用具有不同初始參數(shù)的tSNE(一種高維數(shù)據(jù)降維的算法) + K均值聚類獲得一組基本分區(qū),然后將這些不同的分區(qū)融合到一致簇中。為了驗證該方法的穩(wěn)定性,還將conCluster應(yīng)用于真正的癌癥scRNA -seq數(shù)據(jù)集,然后構(gòu)建已識別的癌癥亞型的共表達網(wǎng)絡(luò)以分析其差異。 conCluster模型是怎么構(gòu)建的呢?第一步是篩選基因,我們的重點是關(guān)注腫瘤細胞的內(nèi)在轉(zhuǎn)錄組學(xué)特征,由于稀有和普遍存在的基因通常不適用于聚類,因此需要過濾掉這些基因。接下來,通過控制平均表達和變異之間的關(guān)系,識別在這些單細胞中變異最大的一組基因;第二步是使用t-SNE降維,scRNA-seq數(shù)據(jù)集噪聲大,維度高,為了進一步降低維數(shù),作者使用t-SNE將經(jīng)過篩選的scRNA表達數(shù)據(jù)降為二維;第三步是劃分細胞,基于變換的二維數(shù)據(jù)矩陣,用不同的初始參數(shù)多次執(zhí)行K均值聚類,來獲得這些單個細胞的不同基本分區(qū);第四步是進行一致性聚類,在獲得不同的分區(qū)之后,將所有二進制矩陣連接成更大的二進制矩陣并執(zhí)行K均值聚類,其中CH指標(biāo)來確定聚類的數(shù)量,CH指標(biāo)由分離度與緊密度的比值得到,以判斷聚類結(jié)果的性能,最后將每個聚類結(jié)果融合成一個一致的結(jié)果。值得注意的是,當(dāng)數(shù)據(jù)集中有細胞標(biāo)簽時,可使用調(diào)整蘭德指數(shù)(ARI)來衡量聚類的準(zhǔn)確性。 單細胞RNA-seq數(shù)據(jù)的性能評估 為了全面評估性能,作者將conCluster與五種廣泛使用的scRNA-seq數(shù)據(jù)聚類方法進行了比較,包括譜聚類,tSNE + K均值,SNN-Cliq,CIDR和SC3(如果想簡單了解一下這五種聚類方法的朋友,文末尾有彩蛋)。下圖顯示了通過ARI測量的不同算法的聚類性能,對于具有6個簇的單細胞表達數(shù)據(jù)數(shù)據(jù)集GSE73727,當(dāng)簇數(shù)目接近6時,這些方法可以獲得更好的性能;對于具有2個簇的數(shù)據(jù)集GSE72056,當(dāng)k等于2時,性能最佳??傮w而言,conCluster更能準(zhǔn)確地識別這些單個細胞的亞型,當(dāng)ARI接近于0.9時,這兩個數(shù)據(jù)集中的conCluster比其他方法的性能都要好。 癌癥亞型的識別 此外,作者對GSE72056中的惡性黑素瘤腫瘤細胞應(yīng)用了conCluster和另外五種方法。如圖中所示,conCluster比其它的方法呈現(xiàn)出五個更清晰可識別的簇,SNN-cliq,tSNE + K均值和SC3也能得到相對清晰的簇,而譜聚類和CIDR在區(qū)分這些簇方面表現(xiàn)不足。 接下來,為了識別惡性黑素瘤的每個亞型的調(diào)控基因,作者進行了基因共表達網(wǎng)絡(luò)分析。首先識別出細胞間有顯著表達差異的基因,這些基因被用來重建亞型特異性共表達網(wǎng)絡(luò),并識別出一些高共表達基因的模塊,利用WGCNA構(gòu)建共表達模塊。圖中顯示了每種黑素瘤亞型的共表達網(wǎng)絡(luò),不同的亞型包括不同的共表達基因子集,這些具有最高連接度的基因通常被認(rèn)為是基本功能信號傳導(dǎo)通路所需的驅(qū)動因子。 作者還計算了不同黑素瘤亞型的共表達網(wǎng)絡(luò)中每個基因的網(wǎng)絡(luò)程度,并識別了具有最多連接的基因。為了檢驗這些基因的潛在功能,使用DAVID工具進行了GO富集分析,并獲得了關(guān)鍵的生物學(xué)過程和通路??傮w來說,這些模塊顯著富集到了與黑素瘤相關(guān)的生物學(xué)重要過程,包括光刺激反應(yīng),抗原加工和細胞死亡調(diào)控等。 彩蛋:譜聚類是一種有效的傳統(tǒng)聚類方法;tSNE + K均值是K均值聚類與非線性降維技術(shù)tSNE相結(jié)合的聚類方法;SNN-Cliq采用共享最近鄰法來計算細胞之間的相似性,并使用圖論理論模型執(zhí)行單細胞聚類;CIDR使用插補方法以原則性方式減輕scRNA-seq數(shù)據(jù)中丟失的影響;SC3將單個K均值聚類的細胞-細胞之間的距離矩陣轉(zhuǎn)換為一致的分區(qū)。 |
|