Площа під кривою ROC проти загальної точності


29

Я трохи заплутаний щодо площі під кривою (AUC) ROC та загальної точності.

  1. Чи буде AUC пропорційним загальній точності? Іншими словами, коли ми маємо більшу загальну точність, ми обов'язково отримаємо більший AUC? Або вони за визначенням позитивно співвідносяться?

  2. Якщо вони позитивно співвідносяться, чому ми турбуємося про те, щоб вони повідомляли їх обох у деяких публікаціях?

  3. У реальному випадку я виконав деяку класифікаційну задачу і отримав такі результати: класифікатор A отримав точність 85%, AUC 0,98, а класифікатор B отримав точність 93%, а AUC - 0,92. Питання в тому, який класифікатор кращий? Або можливо отримати подібні результати на кшталт цих (я маю на увазі, може бути помилка в моїй реалізації)?


1
Я знайшов, що папір може зацікавити когось із вас. google.co.uk/…
Samo Jerom

Хіба AUC не повинен бути меншим за загальну точність, оскільки ми враховуємо помилкову позитивну норму в мірі AUC, тоді як ми не в точності ???
Алі Султан

ROC AUC вигідний, коли класи мають різний розмір. Якщо 99% об'єктів позитивні, точність 99% може бути отримана випадковим відбором. Тоді значення ROC AUC буде набагато більш значущим.
Аноні-Мус

Відповіді:


26

AUC (на основі ROC) і загальна точність здаються не однаковою концепцією.

Загальна точність ґрунтується на одній конкретній точці вирізування, тоді як ROC намагається провести всі точки вирізування та визначає чутливість та специфічність. Тож, коли ми порівнюємо загальну точність, ми порівнюємо точність на основі деякої точки вирізу. Загальна точність варіюється від різних точок вирізу.


2
Дуже дякую за вашу відповідь! Я розумію, що загальна точність виходить із певного граничного значення (або порогового значення). Однак є одна найкраща точка зрізу, тобто найближча до лівого верхнього кута. Наприклад, моя загальна точність обчислюється з використанням найкращої точки відсічення, а AUC - для всіх різних точок відсічення. Тоді як інтерпретувати цю точність та AUC? Наприклад, продуктивність двох класифікаторів, про які я згадував вище.
Samo Jerom

3
О Я бачу. Ви порівнюєте найкращу загальну точність та AUC. Але вони знову ж таки інша концепція. AUC - P (прогнозована ІСТИНА | фактична ІСТИНА) проти P (ЛІЖНІ | ЛІЖНІ), тоді як загальна точність - P = P (ІСТИНА | ІСТИНА) * P (фактична ІСТИНА) + P (ЛІЖНЯ | ЛІЖНЯ) * P ( фактична помилка). Отже, це дуже залежить від частки справжнього значення у вашому наборі даних. На практиці здається, що найкраща загальна точність зазвичай досягається, коли точка відсіку знаходиться поблизу P (фактична ІСТИНА).
Вінсент

Тож AUC та найкраща загальна точність можуть бути невідповідними, залежно від частки справжнього значення вашого набору даних. У вашому випадку здається, що один із класифікаторів більше зосереджується на чутливості, а інший - на специфіці. А у вашому поточному наборі даних Р (ІСТИНА) не становить 50%. Тож чутливість та специфічність сприяють загальній точності за різними зваженими. На практиці РПЦ може дати нам більше інформації, і ми хотіли б вибрати класний випадок для кожного випадку. Наприклад, класифікатор спаму може бути більше зосереджений на P (не спам | не спам), щоб уникнути пропуску важливих електронних листів.
Вінсент

Дякую за вашу відповідь. Зараз це набагато зрозуміліше. Але якщо хтось хоче більше обговорити, будь ласка, напишіть тут.
Samo Jerom

27

Незважаючи на те, що два заходи статистики, можливо, співвідносяться, вони вимірюють різні якості класифікатора.

AUROC

Площа під кривою (AUC) дорівнює ймовірності того, що класифікатор класифікує випадково обраний позитивний екземпляр вище, ніж випадково обраний негативний приклад. Він вимірює класифікатор майстерність в рейтингу набору шаблонів за ступенем , в якій вони відносяться до позитивного класу, але фактично не призначаючи шаблони для класів.

Загальна точність також залежить від здатності класифікатора ранжувати шаблони, а також від його здатності вибирати поріг у рейтингу, який використовується для присвоєння шаблонів позитивному класу, якщо вище порогового та негативного класу, якщо нижче.

Таким чином, класифікатор з вищою статистикою AUROC (за всіх рівних умов), ймовірно, також матиме більш високу загальну точність, оскільки ранжування шаблонів (яке AUROC вимірює) вигідно як AUROC, так і загальної точності. Однак якщо один класифікатор добре класифікує шаблони, але погано вибирає поріг, він може мати високий AUROC, але погану загальну точність.

Практичне використання

На практиці мені подобається збирати загальну точність, AUROC, і якщо класифікатор оцінює ймовірність членства в класі, перехресну ентропію або прогностичну інформацію. Тоді у мене є показник, який вимірює його сильну здатність проводити жорстку класифікацію (якщо припустити, що помилково-позитивні та помилково негативні витрати на помилкову класифікацію рівні, а частотні класи у вибірці такі ж, як у оперативного використання - велике припущення!), показник, який вимірює здатність до ранжирування шаблонів, і метрика, яка вимірює, наскільки добре ранжування оцінюється як вірогідність.

Для багатьох завдань витрати на оперативну класифікацію невідомі або змінні, або частоти операційного класу відрізняються від частоти в навчальній вибірці або є змінними. У цьому випадку загальна точність часто є досить безглуздою, і AUROC є кращим показником продуктивності, і в ідеалі ми хочемо, щоб класифікатор, який видає добре відкалібровані ймовірності, щоб ми могли компенсувати ці проблеми в оперативному використанні. По суті, яка метрика важлива, залежить від проблеми, яку ми намагаємося вирішити.


Дікране, у вас є посилання на ваш перший абзац?
Бундер

@Без прямо, AUROC - це ймовірність того, що випадково обраний + ve-шаблон буде ранжируватися вище, ніж випадково вибраний -ve шаблон ( en.wikipedia.org/wiki/… ), а отже, є показником якості рейтингу , як ми хотіли б, щоб ця ймовірність була якомога більшою.
Дікран Марсупіал

5

Чи справді AUC дуже корисний показник?

Я б сказав, очікувана вартість є більш відповідним заходом.

Тоді ви матимете вартість A для всіх помилкових позитивів і вартість B для всіх помилкових негативів. Легко виявиться, що інший клас відносно дорожчий за інші. Звичайно, якщо у вас є витрати на помилкову класифікацію в різних підгрупах, то це буде ще більш потужним показником.

Складаючи графік відсікання на осі x та очікувану вартість на осі y, ви можете бачити, яка точка відсікання мінімізує очікувані витрати.

Формально у вас є збиток з функцією втрати (відсікання | дані, вартість), яку ви намагаєтеся мінімізувати.


3
Очікувана вартість може бути оцінена лише у тому випадку, якщо ви знаєте помилково-позитивні та помилково-негативні витрати, які не потрібні для розрахунку AUC, що є хорошою статистикою, якщо витрати невідомі або змінні.
Дікран Марсупіал

4

Як і всі відповіді були розміщені: ROCі accuracyосновоположними є дві різні концепції.

Взагалі кажучи, ROCописується дискримінаційна сила класифікатора, незалежна від розподілу класів та нерівних витрат на помилку прогнозування (хибна позитивна та хибна негативна вартість).

Такий показник як accuracyобчислюється на основі розподілу класів test datasetабо cross-validation, але це співвідношення може змінитися, коли ви застосуєте класифікатор до даних реального життя, оскільки базовий розподіл класу був змінений або невідомий. З іншого боку, TP rateі FP rateна побудову AUCяких не впливатиме зміщення розподілу класів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.