Обґрунтування використання AUC?


10

Особливо в галузі інформатики, орієнтованої на машинознавчу літературу, AUC (область під характеристикою кривої оператора приймача) є популярним критерієм оцінювання класифікаторів. Які виправдання щодо використання AUC? Наприклад, чи є певна функція втрат, для якої оптимальним рішенням є класифікатор з найкращим AUC?


1
AUC - функція втрат, зрозуміло, що для цієї функції втрат оптимальним рішенням є класифікатор з найкращим AUC.
robin girard

1
@robingirard Ні, це не так, оскільки це не диференціюється, тобто ви не можете його оптимізувати безпосередньо.
cpury

Відповіді:


15

Для двійкових класифікаторів використовуваних для ранжирування (тобто для кожного прикладу нас є в інтервалі ), з якого вимірюється AUC, AUC еквівалентна ймовірності, що де - справжній позитивний приклад, а - справжній негативний приклад. Таким чином, вибір моделі з максимальною AUC мінімізує ймовірність того, що . Тобто мінімізує втрату ранжування справжнього негативу принаймні настільки ж великого, як істинного позитивного.CeC(e)[0,1]C(e1)>C(e0)e1e0C(e0)C(e1)


0

Візьмемо простий приклад визначення хорошого помідора з басейну хороших + поганих помідорів. Скажімо, кількість хороших помідорів - 100, а поганих - 1000, тож 1100. Тепер ваше завдання - визначити якомога більше хороших помідорів. Один із способів отримати хороший помідор - це взяти всі 1100 помідорів. Але це чітко говорить про те, що ви не в змозі диференціювати б / н хороше проти поганого .

Отже, що є правильним способом розмежування - потрібно отримати якомога більше хороших, підбираючи дуже мало поганих. Тому нам потрібна міра, яка може сказати, скільки хороших ми підібрали, а також сказати, на що покладаються погані це. Міра AUC надає більше ваги, якщо він здатний вибрати більше хороших з кількома поганими, як зображено нижче. що говорить про те, наскільки добре ви вмієте розмежовувати б / н добрі та погані.

На прикладі ви можете помітити, що під час збирання 70% хорошого помідора чорна крива набрала близько 48% поганих (домішки), а у синього - 83% поганих (домішки). Таким чином, чорна крива має кращий показник AUC порівняно з синьою. введіть тут опис зображення


Як це відповідає на питання?
Vivek Subramanian

Я з інтуїцією писав про AUC, що це допомагає дати єдиний бал для виявлення хороших (1 у бінарній класифікації) у цілій сукупності, зменшивши при цьому кількість помилкових позитивних результатів. Допоможіть, як я міг би зробити це краще для цього.
югандхар
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.