Emerging Safety Issues in Artificial Intelligence編譯自:Robert Challen,AHRQ Patient Safety Network,Perspectives on Safety,July 2019 圖片來自網(wǎng)絡(luò) 【背景】 自電子健康記錄問世以來,人們便致力于運(yùn)用信息技術(shù)為臨床醫(yī)生提供更加安全和高效的服務(wù)。事實(shí)上,人工智能(Artificial intelligence,AI) 決策支持系統(tǒng)在醫(yī)療行業(yè)中的一些應(yīng)用也有一段時(shí)間了。如今,許多基于規(guī)則的人工智能決策支持系統(tǒng)在臨床上得以廣泛使用,另有一些尚在積極開發(fā)之中。最近,人們將人工智能的研究重點(diǎn)放在了機(jī)器學(xué)習(xí)(Machine Learning)更新上,希望通過對(duì)過去收集的案例數(shù)據(jù)進(jìn)行分析整合從而構(gòu)建一個(gè)機(jī)器內(nèi)部系統(tǒng)模型,最終應(yīng)用該模型為新病人的推理診斷提供服務(wù)。由于該研究重點(diǎn)在近期文獻(xiàn)中頻頻出現(xiàn),AI幾乎成了機(jī)器學(xué)習(xí)更新的代名詞。 未來的機(jī)器學(xué)習(xí)系統(tǒng)將基于新病人的數(shù)據(jù)對(duì)進(jìn)行預(yù)判性診斷,并為獲取最佳臨床結(jié)局制定患者管理策略。這類系統(tǒng)既可以定期反復(fù)訓(xùn)練,也可以從以往的決策中自主學(xué)習(xí)。從長(zhǎng)遠(yuǎn)來看,自主決策系統(tǒng)將有望應(yīng)用于診斷特定的臨床問題,但這場(chǎng)演變也將在短期、中長(zhǎng)期時(shí)間內(nèi)引發(fā)一系列特定的安全問題,這些問題在最近的一篇綜述中已被提及。然而,就在近日,美國(guó)食品藥品監(jiān)管局(FDA)對(duì)提供輔助診斷的機(jī)器自主學(xué)習(xí)更新系統(tǒng)進(jìn)行了批準(zhǔn),因此,伴隨著這些系統(tǒng)而來的安全問題成為了本文將要探討的重點(diǎn)。 圖示:機(jī)器學(xué)習(xí)研究的趨勢(shì)以及相關(guān)的短期、中期和長(zhǎng)期安全風(fēng)險(xiǎn) 【新涌現(xiàn)的安全問題】 在傳統(tǒng)的臨床決策支持系統(tǒng)中,疾病診斷依據(jù)主要由專家們提出,且均基于循證原則。而機(jī)器學(xué)習(xí)行為取決于它在訓(xùn)練過程中所獲得的數(shù)據(jù),當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)現(xiàn)有數(shù)據(jù)不能完全匹配患者的疾病現(xiàn)狀時(shí),系統(tǒng)的準(zhǔn)確性將受到質(zhì)疑,這種現(xiàn)象稱為分布位移(Distributional shift)。原因可能包括訓(xùn)練數(shù)據(jù)的代表性不強(qiáng)、患者診斷不全面、或者將機(jī)器學(xué)習(xí)系統(tǒng)不適當(dāng)?shù)貞?yīng)用于不同的患者群體而該群體不在樣本內(nèi)。其他因素還包括不同患者的人口統(tǒng)計(jì)學(xué)差異、時(shí)間變化、疾病各階段臨床差異、定義黃金診斷標(biāo)準(zhǔn)的不一致以及用于掃描患者的機(jī)器本身的差異性等。臨床醫(yī)生應(yīng)該思考這樣一個(gè)問題:如果沒有對(duì)整個(gè)培訓(xùn)過程進(jìn)行深入了解,我們?nèi)绾未_信特定的機(jī)器自主學(xué)習(xí)決策支持系統(tǒng)適合特定的患者? 機(jī)器學(xué)習(xí)訓(xùn)練包括優(yōu)化預(yù)測(cè)準(zhǔn)確性的過程。與臨床醫(yī)生工作量相比,越來越多的研究聲稱機(jī)器診斷行為堪稱超人的表現(xiàn)。例如,針對(duì)皮膚病分類的機(jī)器學(xué)習(xí)系統(tǒng)的診斷效率已被證實(shí)明顯優(yōu)于臨床醫(yī)生在一系列良性和惡性皮膚病中進(jìn)行的人工測(cè)試效率,但同時(shí),該系統(tǒng)相比臨床醫(yī)生而言更容易出現(xiàn)誤判。這種情況下,在訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)時(shí)必須考慮到錯(cuò)誤情況下可能造成某些后果的嚴(yán)重性,同時(shí),也必須要考慮到算法的目的,權(quán)衡由假陽(yáng)性和假陰性診斷結(jié)果帶來的利弊。一些算法,例如Isabel診斷支持系統(tǒng)中包括“不能錯(cuò)誤診斷”這一類別,以圍繞該軸重新確定診斷建議的優(yōu)先級(jí)。 最近,蘋果公司獲FDA批準(zhǔn),使用智能手表來檢測(cè)心房顫動(dòng)的算法。對(duì)此,蘋果公司也有相應(yīng)的擔(dān)憂:這種算法的廣泛使用,特別是在那些使用蘋果手表而房顫發(fā)生率很低的年輕人群中,可能會(huì)出現(xiàn)大量的假陽(yáng)性房顫診斷而促使其進(jìn)行不必要的醫(yī)學(xué)檢查。近期,蘋果公司向美國(guó)心臟病學(xué)會(huì)提交了關(guān)于AppleWatch大規(guī)模研究的初步結(jié)果,基于目前現(xiàn)有數(shù)據(jù)下結(jié)論還為時(shí)尚早。但在少量已發(fā)生的心房顫動(dòng)警報(bào)案例中,只有34%的使用者通過隨訪心電圖得以證實(shí)他確實(shí)有房顫的發(fā)生。雖然指導(dǎo)GRADE指南發(fā)展準(zhǔn)則很重要,但在機(jī)器學(xué)習(xí)研究中卻很少考慮到:“如果一項(xiàng)測(cè)驗(yàn)不能改善患者的重要結(jié)果,無論它的準(zhǔn)確度多高,都沒有使用它的理由。” 在對(duì)心電圖診斷支持系統(tǒng)的評(píng)估中,Tsai及其同事巧妙地證明了臨床醫(yī)生會(huì)受到專業(yè)系統(tǒng)建議的影響,甚至在其錯(cuò)誤的指示下出現(xiàn)“自動(dòng)化偏差”,這類偏差通常存在于航空業(yè)或車輛自動(dòng)化大背景下。在有關(guān)醫(yī)學(xué)和非醫(yī)學(xué)背景下決策支持的綜述中,針對(duì)減少該項(xiàng)技術(shù)的支持性證據(jù)是有限的,但更顯而易見的問題是,在決策支持系統(tǒng)協(xié)助下受過訓(xùn)練的人一旦脫離了該系統(tǒng)的幫助,將不能實(shí)現(xiàn)正常工作。這個(gè)問題很嚴(yán)重,但并非僅局限于AI或特定的機(jī)器學(xué)習(xí)系統(tǒng)。很難想象在沒有超聲心動(dòng)圖的情況下能對(duì)瓣膜性心臟病進(jìn)行明確診斷。不出所料,由于高準(zhǔn)確度的檢測(cè)技術(shù)越來越容易獲取,聽診技巧在臨床實(shí)踐中變得越來越不受重視。 機(jī)器學(xué)習(xí)技術(shù)與臨床工具(如床旁超聲心動(dòng)圖)的應(yīng)用存在著重要差異。機(jī)器學(xué)習(xí)系統(tǒng)就像人類決策者一樣,他們也會(huì)不可避免地犯錯(cuò),也可能像“黑匣子”一樣運(yùn)作而顯得神秘莫測(cè),這種情況下,人們不能評(píng)估到機(jī)器學(xué)習(xí)系統(tǒng)的決策過程。通常情況下,我們會(huì)假定臨床醫(yī)生的角色是解釋機(jī)器學(xué)習(xí)系統(tǒng)的建議并在其出現(xiàn)錯(cuò)誤時(shí)及時(shí)采取控制措施。然而,機(jī)器學(xué)習(xí)系統(tǒng)和相關(guān)自動(dòng)化偏差會(huì)以一種非常特殊且可能自我實(shí)現(xiàn)的方式出現(xiàn),它們的出現(xiàn)或會(huì)妨礙臨床技能的發(fā)展和改進(jìn),而這些臨床技能能起到監(jiān)督作用且是保證安全實(shí)施的關(guān)鍵。 無論采用何種技術(shù),最終它都可能形成由相對(duì)于AI能力弱的臨床醫(yī)生去監(jiān)管AI系統(tǒng)的局面,并可能因此對(duì)患者造成傷害。這種方式下,醫(yī)療保健為其他高風(fēng)險(xiǎn)技術(shù)系統(tǒng)(如汽車領(lǐng)域和航空領(lǐng)域的先進(jìn)自動(dòng)化)提供了借鑒經(jīng)驗(yàn),因?yàn)榧幢闶巧贁?shù)但足夠引人矚目的事故將使公眾對(duì)自動(dòng)化的智慧產(chǎn)生質(zhì)疑。如果說,臨床醫(yī)生需要在這場(chǎng)設(shè)想中承擔(dān)什么責(zé)任,我們認(rèn)為,這樣的機(jī)器并不能很好地適應(yīng)醫(yī)療設(shè)備的現(xiàn)存定義,而需要在類似于人類決策者的監(jiān)管框架內(nèi)運(yùn)作,無論是在合適的資歷、預(yù)期的實(shí)踐標(biāo)準(zhǔn)、績(jī)效審查以及為自身錯(cuò)誤而承擔(dān)責(zé)任等各個(gè)方面。在這種情況下,AI系統(tǒng)需要像臨床醫(yī)生一樣,保證不會(huì)出現(xiàn)差錯(cuò)。這將需要一個(gè)公司勇敢地站出來向世人展示他對(duì)人工智能系統(tǒng)的支持和信任。 【結(jié)論】 這篇文章探討了在醫(yī)學(xué)上采用機(jī)器學(xué)習(xí)系統(tǒng)(或稱人工智能技術(shù))可能產(chǎn)生的各種實(shí)際和哲學(xué)問題。但是,這些問題的嚴(yán)重性主要取決于AI系統(tǒng)在醫(yī)療領(lǐng)域的應(yīng)用程度。敗血癥預(yù)測(cè)算法的實(shí)驗(yàn)正在進(jìn)行中,其益處明確且可以在重要的結(jié)果中表達(dá)出來,并且數(shù)據(jù)的算法監(jiān)測(cè)與從整體中識(shí)別患者身份的臨床技能相互補(bǔ)充。臨床醫(yī)生和機(jī)器學(xué)習(xí)研究人員需要專注于尋找“簡(jiǎn)單易懂”的應(yīng)用程序,以確保機(jī)器學(xué)習(xí)技術(shù)和計(jì)算機(jī)卓越的數(shù)據(jù)處理能力能安全的運(yùn)用于臨床。在我們看來,關(guān)鍵是要正確理解診斷測(cè)試在臨床環(huán)境中的作用。 關(guān)于機(jī)器學(xué)習(xí)在實(shí)驗(yàn)室的成果表現(xiàn)的研究報(bào)告(由Topol及其同事總結(jié))讓臨床醫(yī)生們對(duì)其作用效果產(chǎn)生了質(zhì)疑,他們懷疑這樣的目標(biāo)在現(xiàn)實(shí)環(huán)境中無法實(shí)現(xiàn)。一些研究集中于將機(jī)器學(xué)習(xí)系統(tǒng)與臨床醫(yī)生決策相結(jié)合,并將最終決策與無機(jī)器學(xué)習(xí)系統(tǒng)輔助的臨床醫(yī)生診斷結(jié)果進(jìn)行比較,研究通過機(jī)器學(xué)習(xí)系統(tǒng)來提高醫(yī)生疾病診斷準(zhǔn)確性的方法。機(jī)器學(xué)習(xí)系統(tǒng)與臨床醫(yī)生的合作過程使其發(fā)展前景一片光明,并挖掘了機(jī)器自主學(xué)習(xí)作為教學(xué)和決策支持工具的巨大潛力。有機(jī)器自主學(xué)習(xí)系統(tǒng)輔助的醫(yī)生和沒有輔助的醫(yī)生之間的對(duì)比,應(yīng)當(dāng)作為機(jī)器自主學(xué)習(xí)實(shí)驗(yàn)標(biāo)準(zhǔn)化設(shè)計(jì)的一部分。 【作者】 Robert Challen, MA, MBBS |
|