Чи є AUC вірогідною коректною класифікацією випадково вибраного екземпляра від кожного класу?


11

Я читав цей підпис у папері і ніколи більше не бачив AUC, описаного таким чином. Це правда? Чи є доказ чи простий спосіб це побачити?

На рис. 2 показана точність прогнозування дихотомічних змінних, виражена у частині площі під кривою функціонування приймача (AUC), що еквівалентно ймовірності правильного класифікації двох випадково вибраних користувачів по одному з кожного класу (наприклад, чоловіки та жінки ).

Мені здається, що це не може бути правдою, оскільки для AUC = 0,5 вищесказане свідчить про те, що існує ймовірність 50% правильно передбачити перевернення монети двічі поспіль, але насправді у вас є лише 25% шанс правильно передбачити два монети в ряд. Принаймні, саме так я думаю про це твердження.


1
Я розумію, що поняття, висловлене в заголовку, все-таки не зовсім правильне, але чи не відповідати цитаті, чи не повинно сказати "ймовірність правильної класифікації ...", а не просто "ймовірність класифікації"? Це збентежило мене в перший раз, коли я прочитав це.
Срібна рибка

1
Це вже досить довгий титул! Я насправді вважав додавати "правильно" вірити чи ні. :)
thecity2

Відповіді:


14

Цитата трохи неправильна. Правильне твердження полягає в тому, що ROC AUC - це ймовірність, що випадково обраний позитивний приклад ранжирується більш високо, ніж випадково обраний негативний приклад. Це пов’язано з взаємозв'язком між RUC AUC та тестом Вілкоксона про ранги.

Ви знайдете обговорення в Томі Фокетті " Вступ до аналізу ROC ", що висвітлює.


8

Опис автора не зовсім точний. Площа під кривою ROC насправді дорівнює ймовірності того, що випадково обраний позитивний приклад має більш високий показник ризику, ніж у випадково вибраного негативного прикладу. Це не обов'язково має нічого спільного з класифікацією, це лише міра поділу між розподілами балів.

Для прикладу монети, уявіть, що у вас є дві монети, і кожна з них пов'язана з рахунком. Потім ви перегортаєте обидві монети, поки одна не підіймає голови, а інша хвостики (оскільки ми визначаємо різні результати). Це еквівалентно наявності моделі, яка робить випадкове зарахування, і ймовірність того, що монета, яка підійшла до голови, має більший (або нижчий) бал - 1/2.


2

Опис, який ви прочитали, є правильним, хоча мені не подобається його формулювання. Площа під кривою ROC (AUC) - це ймовірність правильного віднесення випадкової пари осіб до класу 1 від класу 2. Це статистика на основі рангів, тож якщо вам доведеться здогадуватися, чи одна особа в парі займає вище, ніж інше, це лише 50% шанс, якщо вгадати навмання. AUC є ідентичним [1] зі статистикою тестування підписаних Вілкоксоном рангів, і це може бути використане для ілюстрації його значення.

[1]: Мейсон і Грем (2002). Області нижче кривих відносних робочих характеристик (ROC) та відносних робочих рівнів (ROL): Статистична значимість та інтерпретація. Щоквартальний журнал Королівського метеорологічного товариства. 128: 2145–2166.


1

Як зазначали інші, AUC виражає ймовірність того, що випадково обраний приклад позитивного класу отримає від класифікатора вищий бал, ніж випадково обраний приклад з негативного класу.

Докази цієї властивості див .: Як вивести математичну формулу AUC?

Або джерело, яке використовується для цієї відповіді: D. Hand, 2009, Вимірювання продуктивності класифікатора: цілісна альтернатива області під кривою ROC

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.