Незважаючи на те, що два заходи статистики, можливо, співвідносяться, вони вимірюють різні якості класифікатора.
AUROC
Площа під кривою (AUC) дорівнює ймовірності того, що класифікатор класифікує випадково обраний позитивний екземпляр вище, ніж випадково обраний негативний приклад. Він вимірює класифікатор майстерність в рейтингу набору шаблонів за ступенем , в якій вони відносяться до позитивного класу, але фактично не призначаючи шаблони для класів.
Загальна точність також залежить від здатності класифікатора ранжувати шаблони, а також від його здатності вибирати поріг у рейтингу, який використовується для присвоєння шаблонів позитивному класу, якщо вище порогового та негативного класу, якщо нижче.
Таким чином, класифікатор з вищою статистикою AUROC (за всіх рівних умов), ймовірно, також матиме більш високу загальну точність, оскільки ранжування шаблонів (яке AUROC вимірює) вигідно як AUROC, так і загальної точності. Однак якщо один класифікатор добре класифікує шаблони, але погано вибирає поріг, він може мати високий AUROC, але погану загальну точність.
Практичне використання
На практиці мені подобається збирати загальну точність, AUROC, і якщо класифікатор оцінює ймовірність членства в класі, перехресну ентропію або прогностичну інформацію. Тоді у мене є показник, який вимірює його сильну здатність проводити жорстку класифікацію (якщо припустити, що помилково-позитивні та помилково негативні витрати на помилкову класифікацію рівні, а частотні класи у вибірці такі ж, як у оперативного використання - велике припущення!), показник, який вимірює здатність до ранжирування шаблонів, і метрика, яка вимірює, наскільки добре ранжування оцінюється як вірогідність.
Для багатьох завдань витрати на оперативну класифікацію невідомі або змінні, або частоти операційного класу відрізняються від частоти в навчальній вибірці або є змінними. У цьому випадку загальна точність часто є досить безглуздою, і AUROC є кращим показником продуктивності, і в ідеалі ми хочемо, щоб класифікатор, який видає добре відкалібровані ймовірності, щоб ми могли компенсувати ці проблеми в оперативному використанні. По суті, яка метрика важлива, залежить від проблеми, яку ми намагаємося вирішити.