前言在論文閱讀的過(guò)程中,經(jīng)常遇到使用特異性(specificity)和靈敏度(sensitivity)這兩個(gè)指標(biāo)來(lái)描述分類(lèi)器的性能。對(duì)這兩個(gè)指標(biāo)表示的含有一些模糊,這里查閱了相關(guān)資料后記錄一下。 基礎(chǔ)知識(shí)考慮一個(gè)二分類(lèi)的情況,類(lèi)別為1和0,我們將1和0分別作為正類(lèi)(positive)和負(fù)類(lèi)(negative),則實(shí)際分類(lèi)的結(jié)果有4種,表格如下: 從這個(gè)表格中可以引出一些其它的評(píng)價(jià)指標(biāo): - ACC:classification accuracy,描述分類(lèi)器的分類(lèi)準(zhǔn)確率 計(jì)算公式為:ACC=(TP+TN)/(TP+FP+FN+TN) - BER:balanced error rate 計(jì)算公式為:BER=1/2*(FPR+FN/(FN+TP)) - TPR:true positive rate,描述識(shí)別出的所有正例占所有正例的比例 計(jì)算公式為:TPR=TP/ (TP+ FN) - FPR:false positive rate,描述將負(fù)例識(shí)別為正例的情況占所有負(fù)例的比例 計(jì)算公式為:FPR= FP / (FP + TN) - TNR:true negative rate,描述識(shí)別出的負(fù)例占所有負(fù)例的比例 計(jì)算公式為:TNR= TN / (FP + TN) - PPV:Positive predictive value 計(jì)算公式為:PPV=TP / (TP + FP) - NPV:Negative predictive value 計(jì)算公式:NPV=TN / (FN + TN) 其中TPR即為敏感度(sensitivity),TNR即為特異度(specificity)。
維基百科的附圖:

實(shí)例解釋下面以醫(yī)學(xué)中糖尿病人的篩查為例對(duì)敏感度和特異度進(jìn)行解釋。在這個(gè)例子中,我們只將病人血糖水平作為判斷是否患有糖尿病的指標(biāo)。下圖為正常人和糖尿病患者血糖水平的統(tǒng)計(jì)圖: 我們發(fā)現(xiàn)兩個(gè)人群中有重疊的部分,這個(gè)時(shí)候判定標(biāo)準(zhǔn)定的不同,得到的結(jié)果就會(huì)不同。 如果我們把標(biāo)準(zhǔn)定在最左邊的虛線(xiàn)上,則低于這條線(xiàn)的為正常人,高于這條線(xiàn)的包含了兩類(lèi)人:正常人和糖尿病患者。這種時(shí)候就是靈敏度最高的時(shí)候,即實(shí)際有病而被診斷出患病的概率,沒(méi)有放過(guò)一個(gè)患病的人。如果將標(biāo)準(zhǔn)定在最右邊的虛線(xiàn)上,則是特異度最高的時(shí)候,即實(shí)際沒(méi)病而被診斷為正常的概率,沒(méi)有冤枉一個(gè)沒(méi)病的人。 終上所述,敏感度高=漏診率低,特異度高=誤診率低。 理想情況下我們希望敏感度和特異度都很高,然而實(shí)際上我們一般在敏感度和特異度中尋找一個(gè)平衡點(diǎn),這個(gè)過(guò)程可以用ROC(Receiver Operating Characteristic)曲線(xiàn)來(lái)表示:
即圖中V34點(diǎn),具有較高的靈敏度和特異度。
參考資料哪個(gè)大神能解釋一下敏感性和特異性?學(xué)了好幾年了一直不是很清楚-知乎 ROC曲線(xiàn)-百度百科 Positive and negative predictive values
|