日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

守著金礦當(dāng)乞丐:檢驗(yàn)人的掘金利器在哪里?

 板橋胡同37號(hào) 2019-06-27

張桐碩

武警特色醫(yī)學(xué)中心

數(shù)據(jù)是檢驗(yàn)醫(yī)學(xué)的命脈,數(shù)據(jù)價(jià)值的開(kāi)發(fā)卻并非順理成章。

人工智能正在把我們拉入一個(gè)由數(shù)據(jù)驅(qū)動(dòng)的世界,醫(yī)學(xué)服務(wù)的發(fā)展邏輯也被智能時(shí)代的潮流深刻影響。關(guān)于人工智能未來(lái)如何推動(dòng)檢驗(yàn)醫(yī)學(xué)的變革,可翻看筆者此前的介紹:人工智能呼嘯吹來(lái),檢驗(yàn)醫(yī)學(xué)何以御風(fēng)而行

機(jī)器學(xué)習(xí)是人工智能研究領(lǐng)域的一個(gè)分支,也是當(dāng)下實(shí)現(xiàn)人工智能的主要手段。

拋開(kāi)那些專業(yè)名詞堆砌成的教科書式定義,形象地來(lái)說(shuō),機(jī)器學(xué)習(xí)通過(guò)計(jì)算機(jī)模擬了一個(gè)勤奮的孩子自學(xué)成才的過(guò)程:找來(lái)某個(gè)課題已有的數(shù)據(jù)素材,從中反復(fù)歸納潛在規(guī)律,培養(yǎng)洞察力,以后面對(duì)同樣課題出現(xiàn)的未知數(shù)據(jù),便能做出貼近實(shí)際的判斷和預(yù)測(cè)。

從已知提煉新知,進(jìn)而推測(cè)未知,機(jī)器學(xué)習(xí)是這類算法的總稱。

圖1 機(jī)器學(xué)習(xí)是一門從統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的混合土壤中茁壯成長(zhǎng)起來(lái)的學(xué)科

就像孩子們各有各的學(xué)習(xí)天賦和擅長(zhǎng)科目,不同種類的機(jī)器學(xué)習(xí)算法也有各自的數(shù)據(jù)處理方式和適用場(chǎng)景。機(jī)器學(xué)習(xí)的豐富性使它可以嵌入到生活的方方面面,在醫(yī)療健康領(lǐng)域更是前景廣闊,而這需要保質(zhì)保量的數(shù)據(jù)做支撐。如此一來(lái),影像科和檢驗(yàn)科這類數(shù)據(jù)大戶的優(yōu)勢(shì)凸顯:

第一,手握標(biāo)準(zhǔn)化的原生數(shù)據(jù),獲取省時(shí)省力;

第二,備有臨床診斷結(jié)果作為數(shù)據(jù)標(biāo)簽。

醫(yī)學(xué)影像分析已成為機(jī)器學(xué)習(xí)競(jìng)相進(jìn)軍的主陣地,相比而言,檢驗(yàn)醫(yī)學(xué)還是一片藍(lán)海市場(chǎng)。有志于精進(jìn)業(yè)務(wù)的檢驗(yàn)工作者值得接觸一些機(jī)器學(xué)習(xí)的知識(shí),學(xué)科交叉的電光火石間,或許能為職業(yè)發(fā)展另啟一扇大門。

筆者在此聊聊對(duì)機(jī)器學(xué)習(xí)的心得,供檢驗(yàn)界同道入門之用。

01
機(jī)器學(xué)習(xí):帶你鑿?fù)z驗(yàn)醫(yī)學(xué)的“數(shù)據(jù)變現(xiàn)”之路

數(shù)據(jù)如礦產(chǎn),封藏入土的狀態(tài)并不創(chuàng)造價(jià)值,挖掘出來(lái)應(yīng)用到實(shí)際場(chǎng)景中才有價(jià)值。把數(shù)據(jù)轉(zhuǎn)化為效益的思路演變?yōu)榇笮衅涞赖倪\(yùn)營(yíng)模式——數(shù)據(jù)變現(xiàn)

“數(shù)據(jù)變現(xiàn)”興起于大數(shù)據(jù)和互聯(lián)網(wǎng)行業(yè),大有遷移至各行各業(yè)的燎原之勢(shì)。檢驗(yàn)醫(yī)學(xué)“數(shù)據(jù)變現(xiàn)”的目標(biāo),不僅包括經(jīng)濟(jì)上開(kāi)源節(jié)流,重點(diǎn)在于提高服務(wù)質(zhì)量和科研水平。

自動(dòng)化檢驗(yàn)技術(shù)突飛猛進(jìn),檢驗(yàn)實(shí)驗(yàn)室每天流經(jīng)的“數(shù)據(jù)”很多,問(wèn)題是“變現(xiàn)”的路徑很少,難以發(fā)揮與自身數(shù)據(jù)大戶地位相匹配的貢獻(xiàn)。

報(bào)告單的發(fā)出往往就意味檢驗(yàn)工作的終結(jié),空留一堆龐雜的信息,卻苦于缺乏挖掘數(shù)據(jù)財(cái)富的技術(shù),感覺(jué)有點(diǎn)像守著金礦的乞丐。檢驗(yàn)在醫(yī)院學(xué)科群體中的影響力和學(xué)術(shù)地位偏低,與之不無(wú)關(guān)系。

圖2 檢驗(yàn)醫(yī)學(xué)的尷尬處境:家里有礦,奈何沒(méi)有趁手的掘金利器

結(jié)合機(jī)器學(xué)習(xí)的性能特點(diǎn)和已發(fā)表的研究案例,筆者可以預(yù)見(jiàn),機(jī)器學(xué)習(xí)加持下的檢驗(yàn)醫(yī)學(xué)將跨出現(xiàn)有的一畝三分地,服務(wù)范圍從圍繞標(biāo)本的測(cè)定,延伸到檢驗(yàn)前和檢驗(yàn)后的整個(gè)鏈條。

檢驗(yàn)前

針對(duì)不同疾病篩選最優(yōu)標(biāo)志物,或優(yōu)化標(biāo)志物的組合模式,指導(dǎo)臨床醫(yī)師合理選擇檢驗(yàn)項(xiàng)目。

檢驗(yàn)中

賦能計(jì)算機(jī)視覺(jué),提高對(duì)各種體液標(biāo)本和骨髓中細(xì)胞形態(tài)的鑒別能力。形態(tài)學(xué)檢驗(yàn)高度依賴人工經(jīng)驗(yàn),乃自動(dòng)化分析最后的難關(guān),開(kāi)始被深度學(xué)習(xí)算法所撬動(dòng)。

檢驗(yàn)后

建立輔助診斷模型,給出與數(shù)值結(jié)果緊密配套的個(gè)體化報(bào)告解讀:發(fā)病風(fēng)險(xiǎn)、進(jìn)展趨勢(shì)、預(yù)后評(píng)估、追加相關(guān)檢查的建議等。提供咨詢服務(wù),與臨床科室深層次地合作。

不僅于此,機(jī)器學(xué)習(xí)在自動(dòng)審核和危急值預(yù)警中的應(yīng)用呼聲也很高。整合病人的歷史檢驗(yàn)數(shù)據(jù)和臨床信息要素,尋找多個(gè)項(xiàng)目間的關(guān)聯(lián)模式,從而制定出個(gè)性化的參考區(qū)間和更加完善的審核規(guī)則,突破LIS系統(tǒng)僅依據(jù)單一項(xiàng)目結(jié)果進(jìn)行異常提醒的局限。

退一步講,即便機(jī)器學(xué)習(xí)工具難以超越經(jīng)驗(yàn)豐富的人類專家,但它運(yùn)行狀態(tài)穩(wěn)定,不知疲倦地為檢驗(yàn)工作者提供決策參考,我們的時(shí)間和精力便能被解放出來(lái),投身到更具挑戰(zhàn)性的目標(biāo)中去。

02
 機(jī)器學(xué)習(xí)的正確打開(kāi)姿勢(shì):拿來(lái)主義

這一輪人工智能的算法革命接近完成,成熟的機(jī)器學(xué)習(xí)工具已經(jīng)走出實(shí)驗(yàn)室,轉(zhuǎn)向應(yīng)用的細(xì)分領(lǐng)域。檢驗(yàn)界應(yīng)該抓緊機(jī)器學(xué)習(xí)落地和推廣的黃金時(shí)間,直接拿來(lái)現(xiàn)有的成果,找到它在檢驗(yàn)工作中的運(yùn)用空間。

欲將機(jī)器學(xué)習(xí)為檢驗(yàn)所用,必先認(rèn)清我們的能力邊界。

要檢驗(yàn)人搞清楚硬核的機(jī)器學(xué)習(xí)理論推導(dǎo)和代碼著實(shí)困難,但這并不妨礙我們把它用好。對(duì)非專業(yè)人士而言,了解各種機(jī)器學(xué)習(xí)算法擅長(zhǎng)解決的問(wèn)題或適用的業(yè)務(wù)場(chǎng)景,還是有可能的,剩下就是有的放矢地借助專業(yè)平臺(tái),探索領(lǐng)域內(nèi)關(guān)心的問(wèn)題。

筆者梳理了檢驗(yàn)領(lǐng)域最常用的多指標(biāo)聯(lián)合診斷的方法體系,按產(chǎn)生年代和復(fù)雜程度,劃分為四個(gè)層級(jí)。以此為例,帶大家扒一扒機(jī)器學(xué)習(xí)所處的段位,摸一摸檢驗(yàn)人運(yùn)用它的抓手。

圖3 多指標(biāo)聯(lián)合診斷模型家族“四世同堂”,一代更比一代強(qiáng)

診斷模型1.0  聯(lián)合試驗(yàn)

互補(bǔ)性指標(biāo)提高診斷效率的策略林林總總,編入大學(xué)教材屬于必學(xué)內(nèi)容的唯這一種。聯(lián)合試驗(yàn)是診斷模型家族中的初級(jí)版,其方法有兩類。

?平行試驗(yàn)(俗稱“并聯(lián)”):多個(gè)指標(biāo)中只要一個(gè)呈陽(yáng)性即診斷為陽(yáng)性。靈敏度高、誤診率低。

?系列試驗(yàn)(俗稱“串聯(lián)”):全部指標(biāo)皆呈陽(yáng)性才診斷為陽(yáng)性。特異度高、漏診率低。

聯(lián)合試驗(yàn)簡(jiǎn)單粗暴,用不著公式計(jì)算,憑一雙眼就能輕松駕馭,但缺點(diǎn)也明顯:每個(gè)指標(biāo)的界值必須事先確定,靈活性大打折扣診;靈敏度和特異度不能兼顧,誤診和漏診難以平衡。

診斷模型2.0  傳統(tǒng)統(tǒng)計(jì)學(xué)方法

以logistic回歸、線性判別分析為代表的多元統(tǒng)計(jì)分類法穩(wěn)居主流,時(shí)常翻閱臨床研究類文獻(xiàn)的同學(xué)肯定對(duì)其臉熟。

這類進(jìn)階版診斷模型的原理簡(jiǎn)明——構(gòu)建一個(gè)函數(shù),將多個(gè)指標(biāo)的診斷信息融合成一個(gè)新指標(biāo),使其診斷準(zhǔn)確度優(yōu)于單個(gè)指標(biāo)。

世界三大統(tǒng)計(jì)軟件SPSS、SAS、Stata均可完成,檢驗(yàn)工作者稍加培訓(xùn)便能熟練操作。

統(tǒng)計(jì)學(xué)對(duì)追求對(duì)函數(shù)的線性簡(jiǎn)化,固然便于對(duì)復(fù)雜問(wèn)題的數(shù)學(xué)描述,但處理現(xiàn)實(shí)中那些非線性變化的檢驗(yàn)指標(biāo)就力不從心了。比如某些癌癥患者隨病情進(jìn)展,血清球蛋白水平呈倒“U”型變化,早期受病灶刺激上升,晚期則在機(jī)體免疫抑制狀態(tài)下回落,對(duì)模型擾動(dòng)很大。

診斷模型3.0  經(jīng)典機(jī)器學(xué)習(xí)方法

機(jī)器學(xué)習(xí)脫胎于統(tǒng)計(jì)學(xué),但不同于統(tǒng)計(jì)學(xué)的模型驅(qū)動(dòng)的路子,機(jī)器學(xué)習(xí)是典型的數(shù)據(jù)驅(qū)動(dòng)的思維方式,它拋棄了因果邏輯、數(shù)據(jù)分布假定和嚴(yán)謹(jǐn)明確的數(shù)學(xué)形式,曾被視為直接從一堆數(shù)據(jù)出發(fā)做預(yù)測(cè)分析的“野路子”。

在數(shù)據(jù)膨脹、計(jì)算能力極大提升的新時(shí)代,接地氣、重實(shí)戰(zhàn)的機(jī)器學(xué)習(xí)技術(shù)突飛猛進(jìn),強(qiáng)勢(shì)逆襲。神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)、隨機(jī)森林等一批經(jīng)典的機(jī)器學(xué)習(xí)算法涌入檢驗(yàn)診斷領(lǐng)域,在高水平的SCI論文中蔚然成風(fēng),被封為診斷模型中的高階版。

機(jī)器學(xué)習(xí)擅長(zhǎng)處理模糊數(shù)據(jù)和非線性映射問(wèn)題,另一個(gè)優(yōu)勢(shì)在于,支持不斷累加的數(shù)據(jù)對(duì)當(dāng)前模型迭代改進(jìn),而無(wú)需重復(fù)訓(xùn)練歷史數(shù)據(jù)(流式學(xué)習(xí)算法),能實(shí)時(shí)“刷新”診斷水準(zhǔn)。

不少軟件能拿來(lái)做機(jī)器學(xué)習(xí)。

名揚(yáng)醫(yī)學(xué)界的SPSS軟件就自帶神經(jīng)網(wǎng)絡(luò)和決策樹(shù)的功能模塊,MeV等生物信息學(xué)分析工具也能做一些簡(jiǎn)單的機(jī)器學(xué)習(xí),它們是機(jī)器學(xué)習(xí)工具中的傻瓜相機(jī),只需按步驟點(diǎn)擊對(duì)話框,但畢竟對(duì)話框里只有基礎(chǔ)選項(xiàng),無(wú)法比擬編程語(yǔ)言的臨機(jī)應(yīng)變。

R語(yǔ)言、Python和Matlab幾款編程語(yǔ)言在生物科研圈人氣漸盛,玩轉(zhuǎn)機(jī)器學(xué)習(xí)不在話下。它們建有活躍的線上社區(qū),遍地共享程序包,我們搜到所需的直接調(diào)用即可。當(dāng)然,至少要看懂程序的大體架構(gòu),別人的代碼總要微調(diào)一下,才能運(yùn)行自己的數(shù)據(jù)。

診斷模型4.0  深度學(xué)習(xí)

深度學(xué)習(xí)是一種特殊的機(jī)器學(xué)習(xí),從傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)衍生而來(lái),儼然一顆人工智能領(lǐng)域最耀眼的明星,后一節(jié)將有詳細(xì)介紹。

深度學(xué)習(xí)對(duì)小樣本問(wèn)題無(wú)法入手,但隨著樣本規(guī)模增大,深度學(xué)習(xí)愈發(fā)展現(xiàn)出勝于傳統(tǒng)機(jī)器學(xué)習(xí)的強(qiáng)大性能。

初始檢驗(yàn)指標(biāo)或形態(tài)學(xué)圖像經(jīng)多個(gè)隱含層網(wǎng)絡(luò)結(jié)構(gòu)的拆解、過(guò)濾、轉(zhuǎn)化,對(duì)診斷結(jié)果有更本質(zhì)的刻畫,從而形成優(yōu)異的樣本分類能力。

如果說(shuō)經(jīng)典機(jī)器學(xué)習(xí)距離醫(yī)學(xué)生的高度,一己之力跳一跳還能夠著,那么只有借用爬梯,才能摘取深度學(xué)習(xí)的果實(shí)。

深度學(xué)習(xí)算法消耗的計(jì)算資源和時(shí)間驚人,依賴高端硬件,而經(jīng)典機(jī)器學(xué)習(xí)算法用普通個(gè)人電腦就能運(yùn)行;操作上也面臨高門檻,需要將患者的檢驗(yàn)結(jié)果和對(duì)應(yīng)的診斷信息正確提交給深度學(xué)習(xí)平臺(tái),比如TensorFlow、H2O、Weka等,而掌握這類面向深度學(xué)習(xí)量身開(kāi)發(fā)的服務(wù)平臺(tái)并非易事。

因此,實(shí)現(xiàn)環(huán)節(jié)一般交由專業(yè)人士或機(jī)構(gòu),并借用大公司的硬件軟件系統(tǒng)和云平臺(tái)。檢驗(yàn)工作者學(xué)習(xí)深度學(xué)習(xí)的主要目的,不在于親自操刀,而是與外援團(tuán)隊(duì)順暢溝通,評(píng)估乙方提供方案的合理性。

03
兩家算法:一窺機(jī)器學(xué)習(xí)的前世今生

機(jī)器學(xué)習(xí)種類紛繁、知識(shí)零散,走馬觀花,難免抽象枯燥。但當(dāng)我們探向縱深,了解了這些機(jī)器學(xué)習(xí)算法的演進(jìn)脈絡(luò),知道了它們?cè)?jīng)如何被塑造,又將如何改變世界,必然嘆服于困難和瓶頸所催生出的種種解決方案的精妙,對(duì)機(jī)器學(xué)習(xí)產(chǎn)生親切感。

眾多算法流派中,筆者擷取著名的兩支作為案例,帶大家領(lǐng)略一下機(jī)器學(xué)習(xí)的沿革。

圖4 神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的發(fā)展簡(jiǎn)史——花開(kāi)兩朵,各表一枝

從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)

人工神經(jīng)網(wǎng)絡(luò)算法是一種仿生方法,以工程技術(shù)手段模擬人腦的神經(jīng)網(wǎng)絡(luò),利用大量的非線性處理器來(lái)模擬眾多的神經(jīng)元,用處理器之間的連接關(guān)系來(lái)模擬神經(jīng)元之間的突觸行為。

神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)本質(zhì)是一個(gè)多層復(fù)合函數(shù),由輸入層、輸出層,以及兩者間的隱含層構(gòu)成。

當(dāng)隱含層只有一個(gè)神經(jīng)元時(shí),類似古老的logistic回歸的作用,是神經(jīng)網(wǎng)絡(luò)進(jìn)化的起點(diǎn);

當(dāng)一個(gè)隱含層有多個(gè)神經(jīng)元時(shí),可看作logistic回歸的分身術(shù),根據(jù)萬(wàn)能逼近定理可以擬合任一函數(shù),便是通常意義上的神經(jīng)網(wǎng)絡(luò),但在產(chǎn)業(yè)應(yīng)用中受限而轉(zhuǎn)入低潮;

隱藏層比較多(3層以上)的神經(jīng)網(wǎng)絡(luò)叫做深層神經(jīng)網(wǎng)絡(luò),亦稱深度學(xué)習(xí),它可以逐層完成數(shù)據(jù)特征提取,完成更加艱難的任務(wù)。其概念于2006年提出后大放光芒,駛?cè)霊?yīng)用快車道,如今深度學(xué)習(xí)已開(kāi)枝散葉,家族繁盛,主要有以下幾類。

?卷積神經(jīng)網(wǎng)絡(luò):用于圖像識(shí)別,如醫(yī)學(xué)影像讀片。

?循環(huán)神經(jīng)網(wǎng)絡(luò):用于語(yǔ)音識(shí)別和文本語(yǔ)言處理。

?生成對(duì)抗網(wǎng)絡(luò):用于風(fēng)格遷移,如模仿梵高繪畫風(fēng)格,明星自動(dòng)換臉。

?深度強(qiáng)化學(xué)習(xí):用于決策和博弈,如自動(dòng)駕駛,訓(xùn)練出擊敗人類圍棋冠軍的阿爾法狗,在星際、魔獸等電競(jìng)比賽中身手不凡。

……

從決策樹(shù)到隨機(jī)森林

決策樹(shù)是一種解決多類分類問(wèn)題的判別模型,它很符合人類的思維習(xí)慣。

通過(guò)訓(xùn)練制定出一組嵌套的規(guī)則,這種決策分支結(jié)構(gòu)很像一棵樹(shù)的枝干。決策過(guò)程從根節(jié)點(diǎn)開(kāi)始,待測(cè)數(shù)據(jù)與每個(gè)決策節(jié)點(diǎn)進(jìn)行比較,選擇進(jìn)入下一級(jí)比較分支,直到葉節(jié)點(diǎn)作為最終的決策結(jié)果。

可惜“獨(dú)木不成林”,實(shí)現(xiàn)決策樹(shù)的算法幾經(jīng)改進(jìn),依舊克服不了固有缺陷。直到2001年提出決策樹(shù)的擴(kuò)展版——隨機(jī)森林,通過(guò)匯總大量決策樹(shù)提高模型的分類精度。

首先對(duì)訓(xùn)練樣本和特征變量隨機(jī)抽樣,生成千萬(wàn)棵決策樹(shù),再以少數(shù)服從多數(shù)的投票機(jī)制,聯(lián)合預(yù)測(cè)結(jié)果。

隨機(jī)森林對(duì)離群值、過(guò)擬合和多重共線性不敏感,穩(wěn)定性強(qiáng),可謂林海莽莽,不懼風(fēng)雨摧折。

從一個(gè)神經(jīng)元到一張神經(jīng)分布網(wǎng),從一棵樹(shù)到一片森林,兩家算法相似的底層機(jī)理一同詮釋了“大量出奇跡”,但與海量互相牽涉的組成單元伴隨而來(lái)的,是可解釋性被剝奪,算法系統(tǒng)幕后的運(yùn)作細(xì)節(jié),觀察和追蹤起來(lái)非常困難。

機(jī)器學(xué)習(xí)的“黑箱”中,充滿了人類無(wú)法描述的“暗知識(shí)”,而治病救人的醫(yī)學(xué),恰恰最需要確鑿無(wú)疑、令人信服的因果聯(lián)系做支撐。如何接受醫(yī)學(xué)標(biāo)準(zhǔn)的審視,是橫在機(jī)器學(xué)習(xí)面前的難關(guān)。

04
調(diào)控機(jī)器學(xué)習(xí)的通用手段:降維和優(yōu)參

雖說(shuō)機(jī)器學(xué)習(xí)具備從數(shù)據(jù)中反復(fù)訓(xùn)練、自動(dòng)學(xué)習(xí)的能力,但并不意味著我們“喂”給機(jī)器數(shù)據(jù)后,就可以當(dāng)甩手掌柜了。

機(jī)器學(xué)習(xí)經(jīng)常做費(fèi)力不討好的盲目訓(xùn)練,有必要引入宏觀調(diào)控手段:一是降維,二是參數(shù)優(yōu)化,兩者貫穿于幾乎所有機(jī)器學(xué)習(xí)類型。大家應(yīng)趁早建立起降維和參數(shù)優(yōu)化的意識(shí)。

Part 1
降維

用以描述樣本的特征變量的數(shù)目(維數(shù))在大數(shù)據(jù)時(shí)代普遍增多,機(jī)器學(xué)習(xí)模型的復(fù)雜度和訓(xùn)練所需的樣本量隨之呈指數(shù)倍增,終將不堪重負(fù),遭遇棘手的“維數(shù)災(zāi)難”。

降維,顧名思義,把高維數(shù)變換到低維數(shù),也就是減少變量而盡量保留原有重要信息。

降維的方法眾多,思路迥異,仿佛游目于山水幻象之間,在不同的人眼中還原成不同的風(fēng)光……

圖5 降維,如同對(duì)這煙云籠罩的山水進(jìn)行一番去粗取精、去偽存真的偵辨

01
看山就是山,看水就是水——代表方法:聚類分析

聚類分析的目標(biāo)是將相似性(距離或相關(guān)系數(shù))高的變量歸為同一類或簇。以筆者所做的一項(xiàng)卵巢癌輔助診斷的研究為例,收集了二十多項(xiàng)檢驗(yàn)指標(biāo)。如圖6,這些指標(biāo)大體分為三類,再?gòu)拿款愔刑暨x一二個(gè)指標(biāo),作為下一步建模的輸入變量。聚類分析不產(chǎn)生新變量,只是幫助找出有代表性的變量。

圖6 檢驗(yàn)指標(biāo)的層次聚類分析結(jié)果

02
看山好似山,看水好似水——代表方法:主成分分析

主成分分析將初始變量線性組合,合成少數(shù)幾個(gè)新的綜合變量(主成分)。繼續(xù)上面卵巢癌診斷的案例,筆者選取特征值排名前三的主成分代表初始檢驗(yàn)指標(biāo)的信息,列舉第一個(gè)主成分的表達(dá)式:

P1=0.615×CA125+0.06×CA15-3+0.657×CA72-4+…-0.123×TC+0.144×LDL-C/HDL-C

主成分與初始變量的聯(lián)系一目了然,檢驗(yàn)指標(biāo)的權(quán)重系數(shù)反映了其對(duì)主成分的影響力。主成分1主要反映了可歸納為婦科腫瘤標(biāo)志物和激素水平,主成分2反映了血糖和血脂代謝情況,主成分3反映了炎癥狀態(tài)。

03
看山不是山,看水不是水——代表方法:分布隨機(jī)近鄰嵌入(t-SNE)

t-SNE是一種非線性降維方法,它基于鄰域圖上隨機(jī)游走的概率分布,適合對(duì)高維數(shù)據(jù)的二維或三維可視化。筆者利用t-SNE將20多個(gè)檢驗(yàn)指標(biāo)轉(zhuǎn)換為3個(gè)新變量,繪制成三維散點(diǎn)圖,圖7可見(jiàn)卵巢癌組與各對(duì)照組的區(qū)域劃分較明顯。

新變量與初始變量之間復(fù)雜的多項(xiàng)式關(guān)系,致使我們難以直觀地理解新變量的專業(yè)意義。

圖7 檢驗(yàn)指標(biāo)經(jīng)t-SNE降維后將樣本分成幾簇

Part 2
參數(shù)優(yōu)化

參數(shù)是影響機(jī)器學(xué)習(xí)性能的關(guān)鍵,機(jī)器學(xué)習(xí)的訓(xùn)練過(guò)程本質(zhì)上是一個(gè)尋找最優(yōu)參數(shù)的過(guò)程。

比如神經(jīng)網(wǎng)絡(luò)模型,就有隱含層神經(jīng)元的數(shù)量、學(xué)習(xí)速率、連接權(quán)值和閾值等一系列參數(shù)需要正確配置。

奈何開(kāi)啟不了上帝視角,不能一步到位給定每個(gè)參數(shù)的最佳值,既然你我皆凡人,那就腳踏實(shí)地去搜索吧——根據(jù)專業(yè)知識(shí)和經(jīng)驗(yàn)預(yù)估出參數(shù)初始值,然后在運(yùn)算過(guò)程中反復(fù)試錯(cuò)調(diào)整,逐步逼近最優(yōu)參數(shù)。

理論上“條條大路通羅馬”,算法一通七拐八繞總能到達(dá)最優(yōu)參數(shù)的目的地,但既耗時(shí)又占內(nèi)存,中間還易陷入局部最小。

與其盤曲小徑跑斷腿,不如規(guī)劃路線切入筆直大道。因此,通常會(huì)引入優(yōu)化算法,來(lái)縮小參數(shù)集的范圍,自適應(yīng)地提升參數(shù)搜索效率。

現(xiàn)代智能算法的用途主打參數(shù)優(yōu)化,包括:模擬退火算法、免疫算法、遺傳算法、蟻群算法、粒子群算法等。聽(tīng)聽(tīng)命名便知,這些算法的開(kāi)發(fā)靈感來(lái)自于自然現(xiàn)象或生物學(xué)行為,屬于啟發(fā)式算法,具體原理不做贅述。

05
END

回到主題,身在檢驗(yàn)醫(yī)學(xué)行業(yè)的我們,借力機(jī)器學(xué)習(xí)完成“數(shù)據(jù)變現(xiàn)”的優(yōu)勢(shì)何在?

依筆者看來(lái),不在于算法,因?yàn)楦鞔罂萍脊靖?jìng)相推出了開(kāi)放性人工智能平臺(tái),算法往往是開(kāi)源的;不在于算力,因?yàn)樵朴?jì)算服務(wù)越來(lái)越便宜;

我們的核心優(yōu)勢(shì)要構(gòu)建在數(shù)據(jù)供應(yīng)上、在對(duì)工作問(wèn)題的發(fā)覺(jué)上、在把行業(yè)痛點(diǎn)跟機(jī)器學(xué)習(xí)工具的對(duì)接上。

檢驗(yàn)?zāi)酥疗渌t(yī)務(wù)工作者,下功夫去了解機(jī)器學(xué)習(xí)的概念、流派、發(fā)展簡(jiǎn)史,未必就能上手運(yùn)行算法以解應(yīng)急之需。

跨出自己的知識(shí)圈,擁抱機(jī)器學(xué)習(xí)的真正意義,是培養(yǎng)數(shù)據(jù)思維。深刻地認(rèn)識(shí)日常工作中產(chǎn)生的數(shù)據(jù),日后才可能以數(shù)據(jù)指引業(yè)務(wù)的改善,形成“數(shù)據(jù)變現(xiàn)”的成長(zhǎng)模式。

一時(shí)一地的代碼調(diào)試受挫,不必沮喪,機(jī)器學(xué)習(xí)背后的蘊(yùn)含的數(shù)據(jù)思維和方法論,才讓我們長(zhǎng)期受用。

END

說(shuō)明:本文為原創(chuàng)投稿,不代表國(guó)際檢驗(yàn)醫(yī)學(xué)傳媒、檢驗(yàn)醫(yī)學(xué)微信平臺(tái)觀點(diǎn)。轉(zhuǎn)載時(shí)請(qǐng)注明來(lái)源及原創(chuàng)作者姓名和單位。

編輯:徐少卿   審校:陳雪禮

我就知道你在看!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多