Чому AUC = 1 рівний класифікатор неправильно класифікував половину зразків?


20

Я використовую класифікатор, який повертає ймовірності. Для обчислення AUC я використовую pROC R-пакет. Вихідні ймовірності з класифікатора:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probsпоказує ймовірність перебування в класі '1'. Як показано, класифікатор класифікував усі вибірки до класу '1'.

Справжній вектор етикетки:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

Як показано, класифікатор неправильно класифікував 5 зразків. Але, AUC є:

pROC::auc(truel, probs)
Area under the curve: 1

Чи можете ви поясніть мені, чому це відбувається?


Питання, пов’язані з цим: stats.stackexchange.com/questions/97395
Juho Kokkala

Відповіді:


21

AUC - це міра здатності ранжувати приклади відповідно до ймовірності членства в класі. Таким чином, якщо всі ймовірності перевищують 0,5, ви все одно можете мати AUC одного, якщо всі позитивні шаблони мають більші ймовірності, ніж усі негативні. У цьому випадку буде поріг прийняття рішення, що перевищує 0,5, який би дав нульову швидкість помилки. Зауважте, що оскільки AUC вимірює лише ранжування ймовірностей, він не говорить вам, чи вірогідність правильно відкалібрована (наприклад, немає систематичного зміщення), якщо важлива калібрування ймовірностей, то подивіться на метрику крос-ентропії.


21

Інші відповіді пояснюють, що відбувається, але я подумав, що картинка може бути приємною.

Ви можете бачити, що класи відмінно розділені, тому AUC дорівнює 1, але порогове значення у 1/2 призведе до помилки класифікації 50%.

проб


21

Зразки взагалі не були "некласифікованими". Ці 0приклади ранжуються суворо нижче 1прикладів. AUROC робить саме те, що визначено для виконання, - це вимірювати ймовірність того, що вибраний випадковим чином обраний 1рейтинг вище, ніж випадково вибраний 0. У цьому зразку це завжди вірно, тому це ймовірність 1 події.

Том Фоссет має чудову статтю про криві ROC. Я б запропонував почати там.

Том Фоссет. "Вступ до аналізу ROC". Листи розпізнавання візерунків. 2005 рік.


3
+1 Папір "Фоссет" - це дійсно дуже гарне місце для початку.
Дікран Марсупіал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.