日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

醫(yī)學(xué)領(lǐng)域的機器學(xué)習(xí) Machine Learning in Medicine

 醫(yī)學(xué)abeycd 2019-04-05

Alvin Rajkomar ...

一名49歲患者注意到自己肩部有一處無痛皮疹,但未就診。幾個月后,妻子讓他去就診,結(jié)果診斷出脂溢性角化病。之后,患者在接受結(jié)腸鏡篩查時,護士注意到其肩部有一處深色斑疹,并建議其接受檢查。1個月后,患者到皮膚科醫(yī)師處就診,醫(yī)師采集了皮損活檢標本。檢查發(fā)現(xiàn)一處非癌性色素性皮損。皮膚科醫(yī)師仍對皮損表示擔(dān)心,因此要求對活檢標本進行第二次讀片,結(jié)果診斷出侵襲性黑色素瘤。腫瘤科醫(yī)師對患者啟動全身性化療?;颊叩囊晃会t(yī)師朋友問其為何未接受免疫治療。

如果每一項醫(yī)療決策(無論是重癥監(jiān)護醫(yī)師還是社區(qū)衛(wèi)生工作者做出的醫(yī)療決策)均由相關(guān)專家團隊立即進行審核,并在決策看似有誤的情況下提供指導(dǎo),情況將會是什么樣?新診斷出高血壓,但無并發(fā)癥的患者將接受已知最有效的藥物,而非處方醫(yī)師最熟悉的藥物1,2。開處方時無意中發(fā)生的過量和錯誤將很大程度上被消除3,4?;忌衩睾秃币娂膊〉幕颊呖杀灰龑?dǎo)至其疑似診斷的相關(guān)領(lǐng)域知名專家處5

這樣的系統(tǒng)看似難以實現(xiàn)。并無充足的醫(yī)學(xué)專家可以參與其中,專家要花太長時間才能通讀患者病史,而且與隱私法相關(guān)的顧慮也會導(dǎo)致工作尚未開始就已結(jié)束6。然而,這正是醫(yī)學(xué)領(lǐng)域機器學(xué)習(xí)展現(xiàn)的前景:幾乎所有臨床醫(yī)師制訂決策時蘊含的智慧以及數(shù)十億患者的結(jié)局應(yīng)該可以為每位患者的治療提供指導(dǎo)。也就是說,每項診斷、管理決策和治療都應(yīng)結(jié)合集體的經(jīng)驗教訓(xùn),從而根據(jù)患者的所有已知信息做到實時個體化。

這一框架強調(diào)機器學(xué)習(xí)不僅僅是像新藥或新醫(yī)療器械一樣的新工具,而是對超出人腦理解能力的數(shù)據(jù)進行有意義處理所需的基本技術(shù);海量的信息儲存日益見于龐大的臨床數(shù)據(jù)庫,甚至日益見于單一患者的數(shù)據(jù)7

近50年前,本刊的一篇特別報告指出,計算功能將“增強醫(yī)師的智力功能,并且在某些情況下很大程度上取代醫(yī)師的智力功能8?!比欢?,到了2019年初,機器學(xué)習(xí)在醫(yī)療領(lǐng)域發(fā)揮的推動作用仍然驚人地少。我們在本文中描述醫(yī)學(xué)領(lǐng)域的機器學(xué)習(xí)要實現(xiàn)其全部前景,醫(yī)療系統(tǒng)必須做出的核心結(jié)構(gòu)變化和模式轉(zhuǎn)變(見視頻),而非報告已經(jīng)測試過的無數(shù)(關(guān)于回顧性數(shù)據(jù)的)概念驗證模型

什么是機器學(xué)習(xí)


傳統(tǒng)上,軟件工程師將知識經(jīng)驗濃縮提取成明確的計算機代碼,而代碼準確地指導(dǎo)計算機如何處理數(shù)據(jù)和做出決策。例如,如果患者血壓升高且未接受抗高血壓藥治療,則正確編程的計算機可提出治療方案。這些基于規(guī)則的系統(tǒng)合乎邏輯并且可以解釋,但是,正如本刊1987年一篇回音壁文章中所述,醫(yī)學(xué)領(lǐng)域“如此廣泛且復(fù)雜,即便并非不可能,也很難從規(guī)則中獲取相關(guān)信息9?!?br>

傳統(tǒng)方法和機器學(xué)習(xí)的關(guān)鍵區(qū)別是機器學(xué)習(xí)中的模型是從實例中學(xué)習(xí),而不是用規(guī)則編程。對于給定的任務(wù),實例是以輸入(稱為特征)和輸出(稱為標簽)的形式提供。例如經(jīng)病理科醫(yī)師讀片的數(shù)字化切片被轉(zhuǎn)換成特征(切片的像素)和標簽(例如表明切片包含癌變證據(jù)的信息)。計算機利用通過觀察進行學(xué)習(xí)的算法,確定如何執(zhí)行從特征到標簽的映射,從而創(chuàng)建一個將信息泛化的模型,以便應(yīng)用新的、以前從未見過的輸入(例如未經(jīng)人類讀片的病理切片)來正確執(zhí)行任務(wù)。這一過程稱為監(jiān)督學(xué)習(xí),如圖1所示。還有其他形式的機器學(xué)習(xí)10。表1舉例說明了在經(jīng)同行評議的研究的基礎(chǔ)上,輸入-輸出映射的臨床實用性,或者現(xiàn)有機器學(xué)習(xí)能力經(jīng)簡單擴展后的臨床實用性。

圖1. 監(jiān)督學(xué)習(xí)的概念一覽

如圖A所示,機器學(xué)習(xí)從任務(wù)定義開始,任務(wù)定義說明了應(yīng)映射到相應(yīng)輸出的輸入。該實例的任務(wù)是從一種語言的文本(輸入)中提取一小段,并生成具有相同含義但不同語言的文本(輸出)。沒有一套簡單的規(guī)則可以很好地執(zhí)行這種映射;例如簡單地翻譯每個單詞而不考慮上下文并不能獲得高質(zhì)量的譯文。如圖B所示,訓(xùn)練機器學(xué)習(xí)模型有幾個關(guān)鍵步驟。如圖C所示,利用建立模型時未使用的數(shù)據(jù)(即測試集)來評估模型。此項評估一般在正式測試之前進行,旨在確定模型在試驗設(shè)計(如隨機臨床試驗)所涉及的現(xiàn)場臨床環(huán)境中是否有效。

表1. 驅(qū)動機器學(xué)習(xí)應(yīng)用的輸入和輸出數(shù)據(jù)類型實例*

* 機器學(xué)習(xí)模型需要收集歷史輸入和輸出數(shù)據(jù),它們也稱為特性和標簽。例如一項確定基線心血管危險因素,然后對患者心肌梗死發(fā)生情況進行隨訪的研究將提供訓(xùn)練實例,其中特征是一組危險因素,標簽是未來的心肌梗死。該模型經(jīng)過訓(xùn)練之后,可根據(jù)特征預(yù)測標簽,因此可預(yù)測新患者的標簽發(fā)生風(fēng)險。這一通用框架可用于多種任務(wù)。ARDS指的是急性呼吸窘迫綜合征,CT指的是計算機斷層掃描,EHR指的是電子病歷。

在預(yù)測的準確性至關(guān)重要的應(yīng)用中,模型在數(shù)百萬個特征和實例中發(fā)現(xiàn)統(tǒng)計學(xué)模式的能力是實現(xiàn)超人性能的關(guān)鍵。然而,發(fā)現(xiàn)這些模式之后,不一定可相應(yīng)地識別出基礎(chǔ)生物學(xué)通路或可改變的危險因素,而這些通路和危險因素才是開發(fā)新療法的基礎(chǔ)。

機器學(xué)習(xí)模型和傳統(tǒng)統(tǒng)計學(xué)模型之間沒有清晰的界限,近期發(fā)表的一篇論文總結(jié)了兩者之間的關(guān)系36。然而,新的復(fù)雜機器學(xué)習(xí)模型(例如在“深度學(xué)習(xí)”中使用的模型,深度學(xué)習(xí)指的是利用人工神經(jīng)網(wǎng)絡(luò)的一類機器學(xué)習(xí)算法,該算法可學(xué)習(xí)特征和標簽之間極其復(fù)雜的關(guān)系,并且已被證明對影像分類等任務(wù)的執(zhí)行能力超過人類37,38)非常適合利用現(xiàn)代臨床治療中獲得的復(fù)雜且異質(zhì)的數(shù)據(jù)類型(例如醫(yī)師輸入的醫(yī)療記錄、醫(yī)學(xué)影像、來自傳感器的連續(xù)監(jiān)測數(shù)據(jù)以及基因組數(shù)據(jù)),并從中進行學(xué)習(xí),從而協(xié)助做出醫(yī)學(xué)相關(guān)預(yù)測。表2指導(dǎo)我們何時使用簡單的機器學(xué)習(xí)模型,何時使用復(fù)雜模型。

表2. 決定需要哪類模型時要問的關(guān)鍵問題

人類學(xué)習(xí)和機器學(xué)習(xí)之間的一個關(guān)鍵區(qū)別是人類可以學(xué)會通過少量數(shù)據(jù)建立一般和復(fù)雜關(guān)聯(lián)。例如一個蹣跚學(xué)步的孩子并不需要見過許多貓科動物實例就可以認出獵豹是貓科動物。一般而言,機器學(xué)習(xí)相同任務(wù)所需的實例數(shù)量遠超過人類所需的實例數(shù)量,而且機器沒有常識。然而,事情的另一面是,機器可以從大量數(shù)據(jù)中學(xué)習(xí)39。使用電子病歷(EHR)中存儲的數(shù)千萬患者病歷(包含數(shù)千億個數(shù)據(jù)點)訓(xùn)練機器學(xué)習(xí)模型是完全可行的,且過程中不會發(fā)生分心疏忽,而人類醫(yī)師整個職業(yè)生涯中診療過的患者數(shù)量很難超過幾萬。

機器學(xué)習(xí)如何增進臨床醫(yī)師的工作


預(yù)后

機器學(xué)習(xí)模型可以學(xué)習(xí)大量患者的健康軌跡模式。該設(shè)備可幫助醫(yī)師站在專家的高度預(yù)測未來事件,獲取信息的范圍遠超出個體醫(yī)師的臨床實踐經(jīng)驗。例如患者重返工作崗位的可能性有多大,或者疾病進展速度將有多快?在人群水平,相同類型的預(yù)測能夠可靠地識別很快將出現(xiàn)高危狀況或所需醫(yī)療服務(wù)增多的患者;通過這些信息,我們可提供額外資源來主動支持上述患者40。

大型綜合醫(yī)療系統(tǒng)已經(jīng)在使用簡單的機器學(xué)習(xí)模型自動識別有可能被轉(zhuǎn)入重癥監(jiān)護病房的住院患者17,此外回顧性研究提示,可以利用EHR41和醫(yī)學(xué)影像的原始數(shù)據(jù)建立更復(fù)雜和準確的預(yù)后模型42。

建立機器學(xué)習(xí)系統(tǒng)需要可說明患者綜合縱向狀況的數(shù)據(jù),并利用這些數(shù)據(jù)進行訓(xùn)練。只有建立模型時使用的數(shù)據(jù)集中包含結(jié)局時,模型才能學(xué)習(xí)患者會發(fā)生什么情況。然而,數(shù)據(jù)目前被分別保存在EHR系統(tǒng)、醫(yī)學(xué)影像存檔和傳輸系統(tǒng)、支付方、藥品福利主管(pharmacy benefits manager),甚至患者手機的應(yīng)用程序中。一個解決方案是系統(tǒng)性地將數(shù)據(jù)放在患者自己手中。我們長期以來一直倡導(dǎo)這種解決方案43,患者控制的應(yīng)用程序編程接口如今正被快速采納,它使得上述解決方案得以實現(xiàn)44。

統(tǒng)一數(shù)據(jù)格式(例如快速醫(yī)療互操作性資源[Fast Healthcare Interoperability Resources,F(xiàn)HIR])45融合之后,我們將能夠進行數(shù)據(jù)匯總。然后,患者可以決定允許哪些人訪問其數(shù)據(jù),進而用于建立或運行模型。有人擔(dān)心技術(shù)互操作性不能解決EHR數(shù)據(jù)在語義標準化方面廣泛存在的問題46,但通過HTML(超文本標記語言),我們已經(jīng)為可能比EHR數(shù)據(jù)更混亂的網(wǎng)絡(luò)數(shù)據(jù)建立索引,并且HTML已經(jīng)在搜索引擎中發(fā)揮功用。

診斷

每個患者都是獨特的,但最好的醫(yī)師可以確定患者特有的細微體征屬于正常值還是異常值。通過機器學(xué)習(xí)檢測出的統(tǒng)計學(xué)模式可否幫助醫(yī)師識別他們不經(jīng)常診斷的疾?。?/span>

美國醫(yī)學(xué)科學(xué)院(Institute of Medicine)的結(jié)論是,每個患者一生中幾乎都會遇到診斷錯誤47,而正確診斷疾病對得到適當(dāng)治療至關(guān)重要48。這一問題并不僅限于罕見疾病。心源性胸痛、結(jié)核、痢疾和分娩并發(fā)癥在發(fā)展中國家經(jīng)常被漏診,即使是在治療機會、檢查時間和接受過充分培訓(xùn)的醫(yī)務(wù)人員足夠的情況下49。

利用常規(guī)治療中收集的數(shù)據(jù),機器學(xué)習(xí)可以在臨床診療中確定可能的診斷,并提高對臨床表現(xiàn)出現(xiàn)時間較晚的疾病的關(guān)注50。然而,這種方法有局限性。不太熟練的臨床醫(yī)師可能無法獲得模型為其提供有意義協(xié)助所需的信息,并且建立模型時所依據(jù)的診斷可能是臨時或不正確的診斷48,可能是未表現(xiàn)出癥狀的疾?。ㄒ虼丝赡軐?dǎo)致過度診斷)51,可能受計費的影響52,或者可能根本未被記錄。然而,模型可以根據(jù)實時收集的數(shù)據(jù)向醫(yī)師建議應(yīng)提的問題或應(yīng)做的檢查53;這些建議在后果嚴重的誤診常見(如分娩)或臨床醫(yī)師不確定的情況下可能會有所幫助。臨床正確診斷與EHR或索償書中記錄的診斷之間的差異意味著臨床醫(yī)師從一開始就應(yīng)參與其中,確定常規(guī)治療中產(chǎn)生的數(shù)據(jù)應(yīng)如何應(yīng)用于診斷過程的自動化。

模型已訓(xùn)練成功,可識別各類型影像中的異常(表1)。然而,對作為臨床醫(yī)師常規(guī)工作一部分的機器學(xué)習(xí)模型開展的前瞻性試驗有限19,20。

治療

在有數(shù)萬醫(yī)師治療數(shù)千萬名患者的大型醫(yī)療系統(tǒng)中,患者就診的時間和原因,以及類似疾病患者的治療方式存在差異。模型可否對這些天然差異進行分類,幫助醫(yī)師確定集體經(jīng)驗何時提出更好的治療方式?

一個簡單的應(yīng)用是將醫(yī)師診療時開出的治療方式與模型預(yù)測的治療方式進行比較,并標注出差異供審核(例如其他臨床醫(yī)師大多開出符合新指南的另一種治療方式)。然而,根據(jù)歷史數(shù)據(jù)訓(xùn)練出的模型只是學(xué)習(xí)了醫(yī)師的處方習(xí)慣,而不一定是規(guī)范的臨床實踐。如果希望模型學(xué)習(xí)哪些藥物或治療對患者最為有益,則需要仔細策管數(shù)據(jù)或估計因果效應(yīng),而機器學(xué)習(xí)模型并不一定能夠識別因果效應(yīng),有時機器學(xué)習(xí)模型不能根據(jù)給定的數(shù)據(jù)識別因果效應(yīng)。

療效比較研究和實用性試驗54中使用的傳統(tǒng)方法提供了來自觀察數(shù)據(jù)的重要啟示55。然而,最近使用機器學(xué)習(xí)所做的嘗試表明,要做到以下幾點有一定的挑戰(zhàn):與專家一起生成策管的數(shù)據(jù)集、更新模型以便納入新發(fā)布的證據(jù)、對其進行調(diào)整以便適合各地區(qū)的處方習(xí)慣以及從EHR中自動提取相關(guān)變量以便使用56。

機器學(xué)習(xí)還可根據(jù)臨床文件自動選擇可能符合隨機對照試驗納入標準的患者57,或識別可能在研究中受益于早期療法或新療法的高?;颊呋蚧颊邅喨?。通過上述努力,醫(yī)療系統(tǒng)能夠以更低的成本和管理費用對符合臨床均勢的各種臨床場景進行更嚴格的研究54,58,59。

臨床醫(yī)師工作流程

EHR的引入提高了數(shù)據(jù)的利用度。然而,這些系統(tǒng)也讓臨床醫(yī)師感到挫敗,原因是系統(tǒng)中一大堆關(guān)于計費或管理的復(fù)選框60、笨拙的用戶界面61,62、輸入數(shù)據(jù)所需的時間增加63-66以及發(fā)生醫(yī)療錯誤的新的可能性67。

許多消費產(chǎn)品中使用的機器學(xué)習(xí)技術(shù)也可用于提高臨床醫(yī)師的效率。搜索引擎中使用的機器學(xué)習(xí)可為臨床醫(yī)師提供幫助,使其無須多次點擊即可顯示患者病歷中的相關(guān)信息。預(yù)測鍵入、語音聽寫和自動摘要等機器學(xué)習(xí)技術(shù)可改進表單和文本字段的數(shù)據(jù)輸入。預(yù)先核準可以由模型代替,這些模型根據(jù)患者病歷中的信息自動核準支付68。運用這些能力不僅僅是為了方便醫(yī)師。臨床數(shù)據(jù)的順利查看和輸入是數(shù)據(jù)收集和記錄的基本前提,而數(shù)據(jù)收集和記錄又使機器學(xué)習(xí)能夠為每位患者提出盡可能好的治療。最重要的是,效率的提高、文檔的簡化和自動化臨床工作流程的改進將使臨床醫(yī)師有更多的時間與患者在一起。

在EHR系統(tǒng)之外,機器學(xué)習(xí)技術(shù)還適用于外科視頻的實時分析,從而幫助外科醫(yī)師避開關(guān)鍵解剖結(jié)構(gòu)或意外變異,機器學(xué)習(xí)技術(shù)甚至可以處理比較單調(diào)的任務(wù),例如準確計數(shù)手術(shù)敷料。核對清單有助于避免手術(shù)錯誤69,而對其執(zhí)行情況的無間斷自動監(jiān)測進一步提高了安全性。

臨床醫(yī)師生活中可能也在智能手機上使用這些技術(shù)的變體。盡管已經(jīng)有回顧性概念驗證研究評估了這些技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用15,但這些技術(shù)要得到采納,遇到的主要障礙不是在模型開發(fā)方面,而是在以下方面:技術(shù)的基礎(chǔ)設(shè)施,EHR的法律、隱私和政策框架,衛(wèi)生系統(tǒng),以及技術(shù)提供商。

擴大臨床專業(yè)技能的可及性

醫(yī)師不可能與需要治療的所有患者逐一交流。機器學(xué)習(xí)能否擴大臨床醫(yī)師可及的范圍,從而在無須臨床醫(yī)師親自參與的情況下提供專家級的醫(yī)療評估?例如新發(fā)皮疹的患者可以發(fā)送智能手機拍攝的照片,然后得到診斷32,33,從而避免不必要的急診就診??紤]去急診就診的患者可以與自動分診系統(tǒng)溝通,分診系統(tǒng)在適合的情況下引導(dǎo)其接受其他形式的治療?;颊叽_實需要專業(yè)人員幫助時,模型可以確定具有相關(guān)專業(yè)技能并且有時間接診的醫(yī)師。同樣,為了提高舒適度和降低成本,如果機器可以遠程監(jiān)測傳感器數(shù)據(jù),則原本可能需要住院的患者可以待在家中接受治療。

如果某些地區(qū)的患者獲得醫(yī)療專業(yè)人員直接協(xié)助的途徑有限70且過程復(fù)雜,那么將機器學(xué)習(xí)系統(tǒng)做出的判斷直接發(fā)送給患者具有重要意義。即使在專業(yè)臨床醫(yī)師充足的地區(qū),這些臨床醫(yī)師也擔(dān)心自己的能力和努力程度無法及時、準確解讀患者身上的傳感器或運動追蹤設(shè)備所收集的海量數(shù)字式數(shù)據(jù)71。事實上,通過數(shù)百萬患者就診數(shù)據(jù)訓(xùn)練出的機器學(xué)習(xí)模型有望幫助醫(yī)療專業(yè)人員具備更好的決策能力。例如護士可承擔(dān)許多傳統(tǒng)上由醫(yī)師執(zhí)行的任務(wù),初級保健醫(yī)師可履行一些傳統(tǒng)上由??漆t(yī)師承擔(dān)的角色,??漆t(yī)師可將更多的時間用于可從其專業(yè)技能受益的患者。

不涉及機器學(xué)習(xí)的各種手機應(yīng)用程序或網(wǎng)絡(luò)服務(wù)已被證明可提高用藥依從性72和慢性病控制效果73,74。然而,在直接面向患者的應(yīng)用中,機器學(xué)習(xí)遇到的障礙是缺少正式的回顧性和前瞻性評估方法75

主要挑戰(zhàn)


高質(zhì)量數(shù)據(jù)的利用度

在建立機器學(xué)習(xí)模型的過程中,核心挑戰(zhàn)是收集到具有代表性的多樣化數(shù)據(jù)集。理想做法是確定模型使用中預(yù)期將會遇到的數(shù)據(jù)格式和質(zhì)量,然后利用與之最相似的數(shù)據(jù)來訓(xùn)練模型。例如,對于計劃在床旁使用的模型,最好應(yīng)用EHR中相應(yīng)時刻的相同數(shù)據(jù),即使已知這些數(shù)據(jù)不可靠46或存在不需要的變異性46,76。足夠大的數(shù)據(jù)集可以成功地訓(xùn)練現(xiàn)代模型,從而將有噪輸入映射到有噪輸出。使用較小規(guī)模的策管數(shù)據(jù)集(例如臨床試驗中通過人工病歷審核收集的數(shù)據(jù))并非理想做法,除非床旁臨床醫(yī)師將根據(jù)最初的試驗規(guī)范手動提取變量。這種做法對于某些變量可能可行,但對于做出最準確預(yù)測所需的數(shù)十萬EHR變量并不可行41。

數(shù)據(jù)領(lǐng)域有一句格言是“垃圾進,垃圾出”,而我們又在使用有噪數(shù)據(jù)集訓(xùn)練模型,兩者之間如何協(xié)調(diào)?如果希望了解復(fù)雜的統(tǒng)計學(xué)模式,最好有大規(guī)模數(shù)據(jù)集(即使是有噪數(shù)據(jù)集),但如果希望微調(diào)或評估模型,則必須有帶策管標簽的較小規(guī)模實例集。這樣可以在原始標簽可能有誤的情況下,對照預(yù)期標簽正確評估模型的預(yù)測結(jié)果21。影像學(xué)模型通常需要多名評定人裁定每張影像,然后生成“真實值”(即無誤的專家為某一實例指定的診斷或發(fā)現(xiàn))標簽,但對于非影像學(xué)任務(wù),事后獲得真實值也許是無法做到的,原因例如未獲得必要的診斷性檢查結(jié)果。

機器學(xué)習(xí)模型一般在有大量訓(xùn)練數(shù)據(jù)的情況下表現(xiàn)最佳。因此,在機器學(xué)習(xí)的許多用途中,一個關(guān)鍵問題平衡以下兩方面,一方面是隱私和法規(guī),另一方面是希望利用大量的多樣化數(shù)據(jù)集來提高機器學(xué)習(xí)模型的準確性。

從過去的不可取做法中學(xué)習(xí)

所有人類活動都存在不想要且無意識的偏差。機器學(xué)習(xí)系統(tǒng)的建立者和使用者需要仔細思考偏差如何影響用于訓(xùn)練模型77的數(shù)據(jù),并采用措施解決和監(jiān)測這些偏差78

機器學(xué)習(xí)的優(yōu)勢,也是其弱點之一是模型可以在歷史數(shù)據(jù)中識別出人類無法發(fā)現(xiàn)的模式。來自醫(yī)療實踐的歷史數(shù)據(jù)顯示出醫(yī)療差距,即為弱勢群體提供的醫(yī)療系統(tǒng)性地劣于為其他人群提供的醫(yī)療77,79。在美國,歷史數(shù)據(jù)反映出對可能不必要的治療和服務(wù)做出獎勵的支付系統(tǒng),而且歷史數(shù)據(jù)中可能缺少應(yīng)接受治療,但實際未接受治療的患者(例如無保險的患者)數(shù)據(jù)。

法規(guī)、監(jiān)督和安全應(yīng)用方面的專業(yè)技能

衛(wèi)生系統(tǒng)已經(jīng)開發(fā)出確保向患者安全提供藥物的復(fù)雜機制。機器學(xué)習(xí)的廣泛應(yīng)用也需要類似的復(fù)雜監(jiān)管結(jié)構(gòu)80、法律框架81和本地規(guī)范82,從而確保系統(tǒng)的安全開發(fā)、應(yīng)用和監(jiān)測。此外,技術(shù)公司必須提供可擴展的計算平臺,用于處理大量數(shù)據(jù)和使用模型;然而,如今它們承擔(dān)的角色尚不明確。

至關(guān)重要的是,使用機器學(xué)習(xí)系統(tǒng)的臨床醫(yī)師和患者需要理解它們的局限性,包括在某些情況下,模型不能外推到特定場景83-85。在決策或分析影像時過度依賴機器學(xué)習(xí)模型可能會導(dǎo)致自動化偏差86,醫(yī)師對錯誤的警覺性可能降低。如果模型本身的可解釋程度不夠高,進而導(dǎo)致臨床醫(yī)師無法識別模型給出錯誤建議的情況,那么上述問題就尤其嚴重87,88。在模型預(yù)測結(jié)果中給出置信區(qū)間可能有一定幫助,但置信區(qū)間本身也有可能被錯誤解讀89,90。因此,需要對正在使用的模型進行前瞻性的真實世界臨床評估,而不僅僅是基于歷史數(shù)據(jù)集進行回顧性的性能評估。

直接面向患者的機器學(xué)習(xí)應(yīng)用需要有一些特別的考慮?;颊呖赡軣o法驗證模型制造商宣稱的內(nèi)容是否有高質(zhì)量臨床證據(jù)證實,也無法驗證其建議的做法是否合理。

研究的發(fā)表和傳播

建立模型的跨學(xué)科團隊可能采用臨床醫(yī)師并不熟悉的途徑發(fā)布結(jié)果。論文通常在arXiv和bioRxiv等預(yù)印服務(wù)網(wǎng)站在線發(fā)布91,92,并且許多模型的源代碼保存在GitHub等存儲庫中。此外,經(jīng)同行評議的許多計算機科學(xué)論文并非由傳統(tǒng)期刊發(fā)表,而是作為會議論文集發(fā)表,例如神經(jīng)信息處理系統(tǒng)大會(Neural Information Processing Systems,NeurIPS)和國際機器學(xué)習(xí)大會(International Conference on Machine Learning,ICML)的論文集。

結(jié)論


大量醫(yī)療數(shù)據(jù)的加速產(chǎn)生將從根本上改變醫(yī)療的性質(zhì)。我們堅信,醫(yī)患關(guān)系是為患者提供治療的基石,通過機器學(xué)習(xí)做出的判斷將豐富這一關(guān)系。我們預(yù)計,未來幾年將會出現(xiàn)一些早期模型以及經(jīng)同行評議的研究結(jié)果論文,同時監(jiān)管框架和價值醫(yī)療(value-based care)的經(jīng)濟激勵機制將有所發(fā)展,這些是我們對醫(yī)學(xué)領(lǐng)域的機器學(xué)習(xí)持謹慎樂觀態(tài)度的原因。我們對下面這個但愿不太遙遠的未來充滿期待:數(shù)百萬臨床醫(yī)師為數(shù)十億患者做出治療決策時使用的所有醫(yī)學(xué)相關(guān)數(shù)據(jù)由機器學(xué)習(xí)模型進行分析,從而幫助臨床醫(yī)師向所有患者提供可能的最佳治療。

一名49歲患者使用智能手機應(yīng)用程序給肩部皮疹拍了一張照片,應(yīng)用程序建議患者立即與皮膚科醫(yī)師預(yù)約就診時間。保險公司自動批準直接轉(zhuǎn)診,應(yīng)用程序與附近一位有經(jīng)驗的皮膚科醫(yī)師預(yù)約一個2日內(nèi)的就診時間。預(yù)約的就診時間自動與患者的個人日歷進行核對。皮膚科醫(yī)師對皮損進行活檢,病理科醫(yī)師對期黑色素瘤這一計算機輔助診斷結(jié)果進行審核,然后由皮膚科醫(yī)師將其切除。

    Disclosure forms provided by the authors are available with the full text of this article at NEJM.org.

譯者:侯海燕,NEJM醫(yī)學(xué)前沿

校對:照日格圖,NEJM醫(yī)學(xué)前沿

作者信息

Alvin Rajkomar, M.D., Jeffrey Dean, Ph.D., and Isaac Kohane, M.D., Ph.D. 
From Google, Mountain View, CA (A.R., J.D.); and the Department of Biomedical Informatics, Harvard Medical School, Boston (I.K.). Address reprint requests to Dr. Kohane at the Department of Biomedical Informatics, Harvard Medical School, 10 Shattuck St., Boston, MA, 02115, or at isaac_kohane@harvard.edu.

參考文獻

1. Bakris G, Sorrentino M. Redefining hypertension — assessing the new blood-pressure guidelines. N Engl J Med 2018;378:497-499.

2. Institute of Medicine. Crossing the quality chasm: a new health system for the twenty-first century. Washington, DC: National Academies Press, 2001.

3. Lasic M. Case study: an insulin overdose. Institute for Healthcare Improvement (http://www./education/IHIOpenSchool/resources/Pages/Activities/AnInsulinOverdose.aspx).

4. Institute of Medicine. To err is human: building a safer health system. Washington, DC: National Academies Press, 2000.

5. National Academies of Sciences, Engineering, and Medicine. Improving diagnosis in health care. Washington, DC: National Academies Press, 2016.

6. Berwick DM, Gaines ME. How HIPAA harms care, and how to stop it. JAMA 2018;320:229-230.

7. Obermeyer Z, Lee TH. Lost in thought — the limits of the human mind and the future of medicine. N Engl J Med 2017;377:1209-1211.

8. Schwartz WB. Medicine and the computer — the promise and problems of change. N Engl J Med 1970;283:1257-1264.

9. Schwartz WB, Patil RS, Szolovits P. Artificial intelligence in medicine — where do we stand? N Engl J Med 1987;316:685-688.

10. Goodfellow I, Bengio Y, Courville A, Bengio Y. Deep learning. Cambridge, MA: MIT Press, 2016.

11. Muntner P, Colantonio LD, Cushman M, et al. Validation of the atherosclerotic cardiovascular disease Pooled Cohort risk equations. JAMA 2014;311:1406-1415.

12. Clark J. Google turning its lucrative Web search over to AI machines.Bloomberg News. October 26, 2015 (https://www./news/articles/2015-10-26/google-turning-its-lucrative-web-search-over-to-ai-machines).

13. Johnson M, Schuster M, Le QV, et al. Google’s multilingual neural machine translation system: enabling zero-shot translation. arXiv. November 14, 2016 (http:///abs/1611.04558).

14. Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. arXiv. September 1, 2014 (http:///abs/1409.0473).

15. Kannan A, Chen K, Jaunzeikare D, Rajkomar A. Semi-supervised learning for information extraction from dialogue. In: Interspeech 2018. Baixas, France: International Speech Communication Association, 2018:2077-81.

16. Rajkomar A, Oren E, Chen K, et al. Scalable and accurate deep learning for electronic health records. arXiv. January 24, 2018 (http:///abs/1801.07860).

17. Escobar GJ, Turk BJ, Ragins A, et al. Piloting electronic medical record-based early detection of inpatient deterioration in community hospitals. J Hosp Med 2016;11:Suppl 1:S18-S24.

18. Grinfeld J, Nangalia J, Baxter EJ, et al. Classification and personalized prognosis in myeloproliferative neoplasms. N Engl J Med 2018;379:1416-1430.

19. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med 2019;25(1):44-56.

20. Wang P, Berzin TM, Glissen Brown JR, et al. Real-time automatic detection system increases colonoscopic polyp and adenoma detection rates: a prospective randomised controlled study. Gut 2019 February 27 (Epub ahead of print).

21. Krause J, Gulshan V, Rahimy E, et al. Grader variability and the importance of reference standards for evaluating machine learning models for diabetic retinopathy. Ophthalmology 2018;125:1264-1272.

22. Gulshan V, Peng L, Coram M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. JAMA 2016;316:2402-2410.

23. Ting DSW, Cheung CY-L, Lim G, et al. Development and validation of a deep learning system for diabetic retinopathy and related eye diseases using retinal images from multiethnic populations with diabetes. JAMA 2017;318:2211-2223.

24. Kermany DS, Goldbaum M, Cai W, et al. Identifying medical diagnoses and treatable diseases by image-based deep learning. Cell 2018;172(5):1122-1131.e9.

25. Poplin R, Varadarajan AV, Blumer K, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nat Biomed Eng 2018;2:158-164.

26. Steiner DF, MacDonald R, Liu Y, et al. Impact of deep learning assistance on the histopathologic review of lymph nodes for metastatic breast cancer. Am J Surg Pathol 2018;42:1636-1646.

27. Liu Y, Kohlberger T, Norouzi M, et al. Artificial intelligence-based breast cancer nodal metastasis detection. Arch Pathol Lab Med 2018 October 8 (Epub ahead of print).

28. Ehteshami Bejnordi B, Veta M, Johannes van Diest P, et al. Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer. JAMA 2017;318:2199-2210.

29. Chilamkurthy S, Ghosh R, Tanamala S, et al. Deep learning algorithms for detection of critical findings in head CT scans: a retrospective study. Lancet 2018;392:2388-2396.

30. Mori Y, Kudo SE, Misawa M, et al. Real-time use of artificial intelligence in identification of diminutive polyps during colonoscopy: a prospective study. Ann Intern Med 2018;169:357-366.

31. Tison GH, Sanchez JM, Ballinger B, et al. Passive detection of atrial fibrillation using a commercially available smartwatch. JAMA Cardiol 2018;3:409-416.

32. Galloway CD, Valys AV, Petterson FL, et al. Non-invasive detection of hyperkalemia with a smartphone electrocardiogram and artificial intelligence. J Am Coll Cardiol 2018;71:Suppl:A272-A272. abstract.

33. Esteva A, Kuprel B, Novoa RA, et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017;542:115-118.

34. Rajkomar A, Yim JWL, Grumbach K, Parekh A. Weighting primary care patient panel size: a novel electronic health record-derived measure using machine learning. JMIR Med Inform 2016;4(4):e29-e29.

35. Schuster MA, Onorato SE, Meltzer DO. Measuring the cost of quality measurement: a missing link in quality strategy. JAMA 2017;318:1219-1220.

36. Beam AL, Kohane IS. Big data and machine learning in health care. JAMA 2018;319:1317-1318.

37. LeCun Y, Bengio Y, Hinton G. Deep learning. Nature 2015;521:436-444.

38. Hinton G. Deep learning — a technology with the potential to transform health care. JAMA 2018;320:1101-1102.

39. Halevy A, Norvig P, Pereira F. The unreasonable effectiveness of data. IEEE Intell Syst 2009;24:8-12.

40. Bates DW, Saria S, Ohno-Machado L, Shah A, Escobar G. Big data in health care: using analytics to identify and manage high-risk and high-cost patients. Health Aff (Millwood) 2014;33:1123-1131.

41. Rajkomar A, Oren E, Chen K, et al. Scalable and accurate deep learning with electronic health records. npj Digital Medicine 2018;1(1):18-18.

42. De Fauw J, Ledsam JR, Romera-Paredes B, et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. Nat Med 2018;24:1342-1350.

43. Mandl KD, Szolovits P, Kohane IS. Public standards and patients’ control: how to keep electronic medical records accessible but private. BMJ 2001;322:283-287.

44. Mandl KD, Kohane IS. Time for a patient-driven health information economy? N Engl J Med 2016;374:205-208.

45. Mandel JC, Kreda DA, Mandl KD, Kohane IS, Ramoni RB. SMART on FHIR: a standards-based, interoperable apps platform for electronic health records. J Am Med Inform Assoc 2016;23:899-908.

46. Hersh WR, Weiner MG, Embi PJ, et al. Caveats for the use of operational electronic health record data in comparative effectiveness research. Med Care 2013;51:Suppl 3:S30-S37.

47. McGlynn EA, McDonald KM, Cassel CK. Measurement is essential for improving diagnosis and reducing diagnostic error: a report from the Institute of Medicine. JAMA 2015;314:2501-2502.

48. Institute of Medicine, National Academies of Sciences, Engineering, and Medicine. Improving diagnosis in health care. Washington, DC: National Academies Press, 2016.

49. Das J, Woskie L, Rajbhandari R, Abbasi K, Jha A. Rethinking assumptions about delivery of healthcare: implications for universal health coverage. BMJ 2018;361:k1716-k1716.

50. Reis BY, Kohane IS, Mandl KD. Longitudinal histories as predictors of future diagnoses of domestic abuse: modelling study. BMJ 2009;339:b3677-b3677.

51. Kale MS, Korenstein D. Overdiagnosis in primary care: framing the problem and finding solutions. BMJ 2018;362:k2820-k2820.

52. Lindenauer PK, Lagu T, Shieh M-S, Pekow PS, Rothberg MB. Association of diagnostic coding with trends in hospitalizations and mortality of patients with pneumonia, 2003-2009. JAMA 2012;307:1405-1413.

53. Slack WV, Hicks GP, Reed CE, Van Cura LJ. A computer-based medical-history system. N Engl J Med 1966;274:194-198.

54. Ford I, Norrie J. Pragmatic trials. N Engl J Med 2016;375:454-463.

55. Frieden TR. Evidence for health decision making — beyond randomized, controlled trials. N Engl J Med 2017;377:465-475.

56. Ross C, Swetlitz I, Thielking M, et al. IBM pitched Watson as a revolution in cancer care: it’s nowhere close. Boston: STAT, September 5, 2017 (https://www./2017/09/05/watson-ibm-cancer/).

57. Fiore LD, Lavori PW. Integrating randomized comparative effectiveness research with patient care. N Engl J Med 2016;374:2152-2158.

58. Schneeweiss S. Learning from big health care data. N Engl J Med 2014;370:2161-2163.

59. Institute of Medicine. The learning healthcare system: workshop summary. Washington, DC: National Academies Press, 2007.

60. Erickson SM, Rockwern B, Koltov M, McLean RM. Putting patients first by reducing administrative tasks in health care: a position paper of the American College of Physicians. Ann Intern Med 2017;166:659-661.

61. Hill RG Jr, Sears LM, Melanson SW. 4000 Clicks: a productivity analysis of electronic medical records in a community hospital ED. Am J Emerg Med 2013;31:1591-1594.

62. Sittig DF, Murphy DR, Smith MW, Russo E, Wright A, Singh H. Graphical display of diagnostic test results in electronic health records: a comparison of 8 systems. J Am Med Inform Assoc 2015;22:900-904.

63. Mamykina L, Vawdrey DK, Hripcsak G. How do residents spend their shift time? A time and motion study with a particular focus on the use of computers. Acad Med 2016;91:827-832.

64. Oxentenko AS, West CP, Popkave C, Weinberger SE, Kolars JC. Time spent on clinical documentation: a survey of internal medicine residents and program directors. Arch Intern Med 2010;170:377-380.

65. Arndt BG, Beasley JW, Watkinson MD, et al. Tethered to the EHR: primary care physician workload assessment using EHR event log data and time-motion observations. Ann Fam Med 2017;15:419-426.

66. Sinsky C, Colligan L, Li L, et al. Allocation of physician time in ambulatory practice: a time and motion study in 4 specialties. Ann Intern Med 2016;165:753-760.

67. Howe JL, Adams KT, Hettinger AZ, Ratwani RM. Electronic health record usability issues and potential contribution to patient harm. JAMA 2018;319:1276-1278.

68. Lee VS, Blanchfield BB. Disentangling health care billing: for patients’ physical and financial health. JAMA 2018;319:661-663.

69. Haynes AB, Weiser TG, Berry WR, et al. A surgical safety checklist to reduce morbidity and mortality in a global population. N Engl J Med 2009;360:491-499.

70. Steinhubl SR, Kim K-I, Ajayi T, Topol EJ. Virtual care for improved global health. Lancet 2018;391:419-419.

71. Gabriels K, Moerenhout T. Exploring entertainment medicine and professionalization of self-care: interview study among doctors on the potential effects of digital self-tracking. J Med Internet Res 2018;20(1):e10-e10.

72. Morawski K, Ghazinouri R, Krumme A, et al. Association of a smartphone application with medication adherence and blood pressure control: the MedISAFE-BP randomized clinical trial. JAMA Intern Med 2018;178:802-809.

73. de Jong MJ, van der Meulen-de Jong AE, Romberg-Camps MJ, et al. Telemedicine for management of inflammatory bowel disease (myIBDcoach): a pragmatic, multicentre, randomised controlled trial. Lancet 2017;390:959-968.

74. Denis F, Basch E, Septans AL, et al. Two-year survival comparing web-based symptom monitoring vs routine surveillance following treatment for lung cancer. JAMA 2019;321(3):306-307.

75. Fraser H, Coiera E, Wong D. Safety of patient-facing digital symptom checkers. Lancet 2018;392:2263-2264.

76. Elmore JG, Barnhill RL, Elder DE, et al. Pathologists’ diagnosis of invasive melanoma and melanocytic proliferations: observer accuracy and reproducibility study. BMJ 2017;357:j2813-j2813.

77. Gianfrancesco MA, Tamang S, Yazdany J, Schmajuk G. Potential biases in machine learning algorithms using electronic health record data. JAMA Intern Med 2018;178:1544-1547.

78. Rajkomar A, Hardt M, Howell MD, Corrado G, Chin MH. Ensuring fairness in machine learning to advance health equity. Ann Intern Med 2018;169:866-872.

79. Institute of Medicine. Unequal treatment: confronting racial and ethnic disparities in health care. Washington, DC: National Academies Press, 2003.

80. Shuren J, Califf RM. Need for a national evaluation system for health technology. JAMA 2016;316:1153-1154.

81. Kesselheim AS, Cresswell K, Phansalkar S, Bates DW, Sheikh A. Clinical decision support systems could be modified to reduce 'alert fatigue’ while still minimizing the risk of litigation. Health Aff (Millwood) 2011;30:2310-2317.

82. Auerbach AD, Neinstein A, Khanna R. Balancing innovation and safety when integrating digital tools into health care. Ann Intern Med 2018;168:733-734.

83. Amarasingham R, Patzer RE, Huesch M, Nguyen NQ, Xie B. Implementing electronic health care predictive analytics: considerations and challenges. Health Aff (Millwood) 2014;33:1148-1154.

84. Sniderman AD, D’Agostino RB Sr, Pencina MJ. The role of physicians in the era of predictive analytics. JAMA 2015;314:25-26.

85. Krumholz HM. Big data and new knowledge in medicine: the thinking, training, and tools needed for a learning health system. Health Aff (Millwood) 2014;33:1163-1170.

86. Lyell D, Coiera E. Automation bias and verification complexity: a systematic review. J Am Med Inform Assoc 2017;24:423-431.

87. Cabitza F, Rasoini R, Gensini GF. Unintended consequences of machine learning in medicine. JAMA 2017;318:517-518.

88. Castelvecchi D. Can we open the black box of AI? Nature 2016;538:20-23.

89. Jiang H, Kim B, Guan M, Gupta M. To trust or not to trust a classifier. In: Bengio S, Wallach H, Larochelle H, Grauman K, Cesa-Bianchi N, Garnett R, eds. Advances in neural information processing systems 31. New York: Curran Associates, 2018:5541-52.

90. Cohen IG, Amarasingham R, Shah A, Xie B, Lo B. The legal and ethical concerns that arise from using complex predictive analytics in health care. Health Aff (Millwood) 2014;33:1139-1147.

91. arXiv.org Home page (https:///).

92. bioRxiv. bioRxiv: The preprint server for biology (https://www./).               

                                                                                     《NEJM醫(yī)學(xué)前沿》

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多