R語(yǔ)言中繪制ROC曲線和PR曲線

拓端數(shù)據(jù) 2020-03-24

展開(kāi)全文

原文鏈接：http:///?p=6236

ROC 曲線可能是評(píng)估評(píng)分分類(lèi)器的預(yù)測(cè)性能的最常用的度量。

預(yù)測(cè)正類(lèi)（+1）和負(fù)類(lèi)（-1）的分類(lèi)器的混淆矩陣具有以下結(jié)構(gòu)：

預(yù)測(cè)/參考類(lèi)	+1	-1
+1	TP	FP
-1	FN	TN

這里，TP表示真陽(yáng)性的數(shù)量（模型正確預(yù)測(cè)正類(lèi)），F(xiàn)P表示誤報(bào)的數(shù)量（模型錯(cuò)誤地預(yù)測(cè)正類(lèi)），F(xiàn)N表示假陰性的數(shù)量（模型錯(cuò)誤地預(yù)測(cè)陰性類(lèi)），TN表示真陰性的數(shù)量（模型正確預(yù)測(cè)陰性類(lèi)）。

ROC曲線

<- function (y, y.hat, measure = \"tpr\" , x.measure = \"fpr\" ) {\n par(mfrow=c( 1 , 2 ))\n hist(y.hat[y == 0 ], col=rgb( 1 , 0 , 0 , 0.5 ), \n main = \"Score Distribution\" ,\n breaks=seq(min(y.hat),max(y.hat)+ 1 , 1 ), xlab = \"Prediction\" )\n hist(y.hat[y == 1 ], col = rgb( 0 ,0,1,0.5), add=T, \n breaks=seq(min(y.hat),max(y.hat) + \n pr <- prediction(y.hat, y)\n prf <- performance(pr, measure = measure, x.measure = x.measure)\n auc <- performance(pr, measure = \"auc\")@y.values[ \n plot(prf, main = \"Curve (AUC: \" ","classes":{"has":1},"lang":""}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet"> plot.scores.AUC <- function (y, y.hat, measure = "tpr" , x.measure = "fpr" ) { par(mfrow=c( 1 , 2 )) hist(y.hat[y == 0 ], col=rgb( 1 , 0 , 0 , 0.5 ), main = "Score Distribution" , breaks=seq(min(y.hat),max(y.hat)+ 1 , 1 ), xlab = "Prediction" ) hist(y.hat[y == 1 ], col = rgb( 0 ,0,1,0.5), add=T, breaks=seq(min(y.hat),max(y.hat) + pr <- prediction(y.hat, y) prf <- performance(pr, measure = measure, x.measure = x.measure) auc <- performance(pr, measure = "auc")@y.values[ plot(prf, main = "Curve (AUC: "

AUC是完美的分類(lèi)器

理想的分類(lèi)器不會(huì)產(chǎn)生任何預(yù)測(cè)錯(cuò)誤。這意味著分類(lèi)器可以完美地分離這兩個(gè)類(lèi)，使得模型在產(chǎn)生任何誤報(bào)之前實(shí)現(xiàn)100％的真正正率。因此，這種分類(lèi)器的AUC是1，例如：

AUC是一個(gè)很好的分類(lèi)器

將兩個(gè)類(lèi)分開(kāi)但不完美的分類(lèi)器看起來(lái)像這樣：

可視化分類(lèi)器能夠在非常低的FPR下獲得60％的靈敏度。

壞分類(lèi)器的AUC

錯(cuò)誤的分類(lèi)器將輸出其值僅與結(jié)果稍微相關(guān)的分?jǐn)?shù)。這樣的分類(lèi)器將僅以高FPR為代價(jià)達(dá)到高TPR。

只有在大約40％的FPR下，可視化分類(lèi)器才能達(dá)到60％的靈敏度，這對(duì)于應(yīng)該具有實(shí)際應(yīng)用的分類(lèi)器來(lái)說(shuō)太高了。

隨機(jī)分類(lèi)器的AUC

隨機(jī)分類(lèi)器的AUC接近0.5。這很容易理解：對(duì)于每個(gè)正確的預(yù)測(cè)，下一個(gè)預(yù)測(cè)都是不正確的。

分類(lèi)器的AUC表現(xiàn)比隨機(jī)分類(lèi)器差

[0.5,1][0.5,1]

可視化分類(lèi)器在達(dá)到20％以上的靈敏度之前產(chǎn)生80％的FPR。

AUC-PR曲線

精確回憶曲線繪制陽(yáng)性預(yù)測(cè)值（PPV，y軸）與真陽(yáng)性率（TPR，x軸）。這些數(shù)量定義如下：

precisionrecall=PPV=TPTP+FP=TPR=TPTP+FNprecision=PPV=TPTP+FPrecall=TPR=TPTP+FN

例如，請(qǐng)考慮以下數(shù)據(jù)集：

在下文中，我將演示 AUC-PR 下的面積如何受預(yù)測(cè)性能的影響。

AUC-PR是完美的分類(lèi)器

理想的分類(lèi)器不會(huì)產(chǎn)生任何預(yù)測(cè)錯(cuò)誤。因此，它將獲得1的AUC-PR：

AUC-PR是一個(gè)好的分類(lèi)器

將兩個(gè)類(lèi)分開(kāi)但不完美的分類(lèi)器將具有以下精確回憶曲線：

可視化分類(lèi)器在沒(méi)有任何錯(cuò)誤的正面預(yù)測(cè)的情況下達(dá)到約50％的召回率。

壞分類(lèi)器的AUC-PR

錯(cuò)誤的分類(lèi)器將輸出其值僅與結(jié)果稍微相關(guān)的分?jǐn)?shù)。這樣的分類(lèi)器只能以低精度達(dá)到高召回率：

召回率僅為20％時(shí)，分級(jí)機(jī)的精度僅為60％。

隨機(jī)分類(lèi)器的AUC-PR

隨機(jī)分類(lèi)器的AUC-PR接近0.5。這很容易理解：對(duì)于每個(gè)正確的預(yù)測(cè)，下一個(gè)預(yù)測(cè)都是不正確的。

AUC-PR的分類(lèi)器比隨機(jī)分類(lèi)器表現(xiàn)更差

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：拓端數(shù)據(jù) > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)