深入剖析，醫(yī)學(xué)術(shù)語在ICD編碼中的應(yīng)用

fjgsd 2019-12-10

展開全文

之前我們已經(jīng)介紹了，目前編碼人員編碼方法主要分為三步：

1)確定主導(dǎo)詞

2)依據(jù)索引查找編碼

3)核對編碼

其中，主導(dǎo)詞的確定是操作環(huán)節(jié)中最重要的一步，比如疾病診斷主導(dǎo)詞的選擇主要依據(jù)是疾病的發(fā)病機制、發(fā)病部位、病理改變和臨床表現(xiàn)；手術(shù)操作主導(dǎo)詞的選擇主要是依據(jù)手術(shù)操作的術(shù)式、部位、入路、疾病性質(zhì)。

在這個過程中，編碼人員需要豐富的臨床知識和編碼思維，所以說主導(dǎo)詞的確定也是最為困難的一步。確定主導(dǎo)詞之后，同樣需要編碼員非常熟悉 ICD 各卷結(jié)構(gòu)及編碼規(guī)則，才能結(jié)合使用并得到正確的編碼。

術(shù)語集應(yīng)用于 ICD 編碼的流程

從以上編碼的流程可看出，編碼不僅需要懂得 ICD 編碼的分類規(guī)則，還需要豐富的臨床醫(yī)學(xué)和醫(yī)技知識。基于這樣的情況，OMAHA 深入探索了是否可以通過醫(yī)學(xué)術(shù)語集的應(yīng)用來更好的幫助編碼人員進(jìn)行編碼。

我們得到的結(jié)論是，首先讓計算機根據(jù)醫(yī)生下的診斷去識別疾病，疾病的各種同義詞，以及相應(yīng)的屬性關(guān)系，比如病因、發(fā)病部位、癥狀、形態(tài)學(xué)改變等；然后再讓計算機結(jié)合 ICD 編碼本身的分類規(guī)則進(jìn)行編碼推薦并進(jìn)行優(yōu)先級排序；最終由編碼員去選擇最合適編碼。

這樣的處理方法很好的提高了編碼員的編碼效率，可以改善目前普遍存在的 ICD 編碼效率低、質(zhì)量不佳的現(xiàn)狀。詳細(xì)流程如下：

原型化處理及分詞

對疾病診斷名稱進(jìn)行原型化處理，主要是將診斷名稱英文、數(shù)字、符合等進(jìn)行統(tǒng)一處理，比如大小寫全部轉(zhuǎn)換成小寫，去掉無用符號（如空格、結(jié)尾句號等）。再根據(jù)已經(jīng)構(gòu)建好的原子詞詞典，對診斷名稱進(jìn)行分詞處理。

術(shù)語及概念匹配

基于 OMAHA 中文醫(yī)學(xué)術(shù)語集，通過分詞算法將輸入的診斷名稱結(jié)果與術(shù)語集中詞匯進(jìn)行文本匹配，得到一個或多個對應(yīng)的概念，并記錄對應(yīng)文本相似度。若在實際臨床應(yīng)用中，也可以通過獲取病歷中更多的信息，輔助進(jìn)行更精確的概念對應(yīng)。以輸入的診斷名稱“妊娠膽汁淤積”為例，如下：

基于 ICD 規(guī)則和術(shù)語關(guān)系網(wǎng)的推理

通過兩邊得到的輸入得到的一個或多個概念，從 OMAHA 中文醫(yī)學(xué)術(shù)語集中獲取概念的語義關(guān)系（如上位概念、病因、發(fā)病部位、形態(tài)學(xué)改變等），再使用自然語言處理的方法，簡單樹匹配、計算最短路徑的初步推理的備選結(jié)果，再結(jié)合 ICD 本身的編碼分類規(guī)則，進(jìn)一步對推薦結(jié)果進(jìn)行篩選。

生成候選 ICD 和排序

最后根據(jù)術(shù)語匹配和編碼推理推薦時的相關(guān)參數(shù)，并結(jié)合 ICD 編碼實際應(yīng)用場景對 ICD 編碼推薦結(jié)果進(jìn)行排序。若是進(jìn)行國家標(biāo)準(zhǔn)擴展碼轉(zhuǎn)換時，則推薦到國標(biāo)版六位碼；若作為編碼分類時，則可以推薦到四位碼或六位碼。下圖是 OMAHA 開發(fā)的 ICD 編碼小程序的一個搜索展示：

編碼流程難點

在整個編碼推薦流程中，主要存在以下四個難點：

疾病診斷名稱或手術(shù)操作名稱與術(shù)語集概念的匹配效果

OMAHA 正在構(gòu)建醫(yī)學(xué)領(lǐng)域特殊的原子詞詞典，并嘗試通過不同的分詞算法來改進(jìn)和優(yōu)化匹配結(jié)果。

ICD 編碼推薦的正確率

這取決于如何更好的將概念的語義關(guān)系網(wǎng)與 ICD 編碼規(guī)則、ICD 標(biāo)準(zhǔn)詞匯進(jìn)行結(jié)合應(yīng)用，這需要使用到自然語言處理技術(shù)，比如概率統(tǒng)計、因果推斷、最短路徑算法等方法，以提高推薦的準(zhǔn)確度。

中文醫(yī)學(xué)術(shù)語集的數(shù)量和質(zhì)量

需要不斷豐富中文醫(yī)學(xué)術(shù)語集，包括增多臨床診斷術(shù)語概念、擴充概念的同義詞描述、以及豐富概念之間的語義關(guān)系網(wǎng)絡(luò)。所以 OMAHA 正在組織并聯(lián)合行業(yè)各參與方共同來構(gòu)建和豐富中文醫(yī)學(xué)術(shù)語集，并建立起持續(xù)的術(shù)語維護更新機制，為整個醫(yī)療行業(yè)提供穩(wěn)定可靠的醫(yī)學(xué)術(shù)語服務(wù)。

映射庫的構(gòu)建

OMAHA 也在構(gòu)建術(shù)語集與 ICD 編碼之間的映射庫，因為術(shù)語集是基于本體模式構(gòu)建的，所以將概念與 ICD 編碼構(gòu)建好映射，將一勞永逸，不管臨床上術(shù)語的表達(dá)如何變化，只需進(jìn)行術(shù)語集的完善，就可以實現(xiàn)編碼推薦。

目前 OMAHA 術(shù)語與 ICD 編碼的的映射主要收錄了國外成熟術(shù)語體系與 ICD 編碼的映射、國內(nèi)大部分主流版本的 ICD 編碼及合作醫(yī)療機構(gòu)的 ICD 內(nèi)碼數(shù)據(jù)。同時 OMAHA 也在通過人工對機器推薦的編碼進(jìn)行審核，將正確的映射加入到映射庫。未來我們將召集志愿者共同完成這部分映射的維護工作，共同搭建中文醫(yī)學(xué)術(shù)語集與 ICD 編碼之間的橋梁。

可以看出，不管 ICD 編碼本身的規(guī)則多么復(fù)雜，核心還是在于理解疾病，不管臨床醫(yī)生如何表達(dá)一個疾病，只要讓計算機能正確理解疾病本身，再結(jié)合 ICD 編碼分類規(guī)則或映射庫，就可以讓計算機進(jìn)行智能推薦，從而提高編碼人員的工作效率和編碼質(zhì)量。