原文鏈接:http:///?p=6236ROC 曲線可能是評(píng)估評(píng)分分類(lèi)器的預(yù)測(cè)性能的最常用的度量。 預(yù)測(cè)正類(lèi)(+1)和負(fù)類(lèi)(-1)的分類(lèi)器的混淆矩陣具有以下結(jié)構(gòu):
這里,TP表示真陽(yáng)性的數(shù)量(模型正確預(yù)測(cè)正類(lèi)),F(xiàn)P表示誤報(bào)的數(shù)量(模型錯(cuò)誤地預(yù)測(cè)正類(lèi)),F(xiàn)N表示假陰性的數(shù)量(模型錯(cuò)誤地預(yù)測(cè)陰性類(lèi)),TN表示真陰性的數(shù)量(模型正確預(yù)測(cè)陰性類(lèi))。 ROC曲線 <- function (y, y.hat, measure = \"tpr\" , x.measure = \"fpr\" ) {\n par(mfrow=c( 1 , 2 ))\n hist(y.hat[y == 0 ], col=rgb( 1 , 0 , 0 , 0.5 ), \n main = \"Score Distribution\" ,\n breaks=seq(min(y.hat),max(y.hat)+ 1 , 1 ), xlab = \"Prediction\" )\n hist(y.hat[y == 1 ], col = rgb( 0 ,0,1,0.5), add=T, \n breaks=seq(min(y.hat),max(y.hat) + \n pr <- prediction(y.hat, y)\n prf <- performance(pr, measure = measure, x.measure = x.measure)\n auc <- performance(pr, measure = \"auc\")@y.values[ \n plot(prf, main = \"Curve (AUC: \" ","classes":{"has":1},"lang":""}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet"> AUC是完美的分類(lèi)器理想的分類(lèi)器不會(huì)產(chǎn)生任何預(yù)測(cè)錯(cuò)誤。這意味著分類(lèi)器可以完美地分離這兩個(gè)類(lèi),使得模型在產(chǎn)生任何誤報(bào)之前實(shí)現(xiàn)100%的真正正率。因此,這種分類(lèi)器的AUC是1,例如: AUC是一個(gè)很好的分類(lèi)器將兩個(gè)類(lèi)分開(kāi)但不完美的分類(lèi)器看起來(lái)像這樣: 可視化分類(lèi)器能夠在非常低的FPR下獲得60%的靈敏度。 壞分類(lèi)器的AUC錯(cuò)誤的分類(lèi)器將輸出其值僅與結(jié)果稍微相關(guān)的分?jǐn)?shù)。這樣的分類(lèi)器將僅以高FPR為代價(jià)達(dá)到高TPR。 只有在大約40%的FPR下,可視化分類(lèi)器才能達(dá)到60%的靈敏度,這對(duì)于應(yīng)該具有實(shí)際應(yīng)用的分類(lèi)器來(lái)說(shuō)太高了。 隨機(jī)分類(lèi)器的AUC隨機(jī)分類(lèi)器的AUC接近0.5。這很容易理解:對(duì)于每個(gè)正確的預(yù)測(cè),下一個(gè)預(yù)測(cè)都是不正確的。 分類(lèi)器的AUC表現(xiàn)比隨機(jī)分類(lèi)器差[0.5,1][0.5,1] 可視化分類(lèi)器在達(dá)到20%以上的靈敏度之前產(chǎn)生80%的FPR。 AUC-PR曲線精確回憶曲線繪制陽(yáng)性預(yù)測(cè)值(PPV,y軸)與真陽(yáng)性率(TPR,x軸)。這些數(shù)量定義如下: precisionrecall=PPV=TPTP+FP=TPR=TPTP+FNprecision=PPV=TPTP+FPrecall=TPR=TPTP+FN 例如,請(qǐng)考慮以下數(shù)據(jù)集: 在下文中,我將演示 AUC-PR 下的面積如何受預(yù)測(cè)性能的影響。 AUC-PR是完美的分類(lèi)器理想的分類(lèi)器不會(huì)產(chǎn)生任何預(yù)測(cè)錯(cuò)誤。因此,它將獲得1的AUC-PR: AUC-PR是一個(gè)好的分類(lèi)器將兩個(gè)類(lèi)分開(kāi)但不完美的分類(lèi)器將具有以下精確回憶曲線: 可視化分類(lèi)器在沒(méi)有任何錯(cuò)誤的正面預(yù)測(cè)的情況下達(dá)到約50%的召回率。 壞分類(lèi)器的AUC-PR錯(cuò)誤的分類(lèi)器將輸出其值僅與結(jié)果稍微相關(guān)的分?jǐn)?shù)。這樣的分類(lèi)器只能以低精度達(dá)到高召回率: 召回率僅為20%時(shí),分級(jí)機(jī)的精度僅為60%。 隨機(jī)分類(lèi)器的AUC-PR隨機(jī)分類(lèi)器的AUC-PR接近0.5。這很容易理解:對(duì)于每個(gè)正確的預(yù)測(cè),下一個(gè)預(yù)測(cè)都是不正確的。 AUC-PR的分類(lèi)器比隨機(jī)分類(lèi)器表現(xiàn)更差 |
|
來(lái)自: 拓端數(shù)據(jù) > 《待分類(lèi)》