Переваги AUC порівняно зі стандартною точністю


64

Я починав заглядати в область під кривою (AUC) і трохи розгублений щодо її корисності. Коли мені вперше пояснили, AUC здавався чудовим показником продуктивності, але в ході мого дослідження я виявив, що деякі заявляють, що його перевага переважно незначна, оскільки найкраще ловити "щасливі" моделі з високими стандартними вимірюваннями точності та низьким AUC .

Тож чи варто уникати покладання на AUC для валідації моделей чи найкраще поєднання? Дякую за всю вашу допомогу.


5
Розглянемо сильно незбалансовану проблему. Саме тут ROC AUC дуже популярний, оскільки крива врівноважує розміри класів. Досягти точності 99% на наборі даних, де 99% об'єктів в одному класі.
Аноні-Мус

3
"Неявна мета AUC - це розібратися з ситуаціями, коли ви маєте дуже перекошений вибірковий зразок, і не хочете переповнювати один клас." Я подумав, що в таких ситуаціях AUC погано працював і використовувались графіки точності відкликання / площа під ними.
JenSCDC

@JenSCDC, З мого досвіду в таких ситуаціях AUC працює добре, і, як описується нижче в індіко, саме з кривої ROC ви отримуєте цю область. Графік PR також корисний (зауважте, що Recall - це те саме, що TPR, одна з осей у ROC), але точність не зовсім така, як FPR, тому сюжет PR пов'язаний з ROC, але не є однаковим. Джерела: stats.stackexchange.com/questions/132777/… та stats.stackexchange.com/questions/7207/…
alexey

Відповіді:


59

Дійсно велике питання, і я вважаю, що більшість людей насправді не розуміють на інтуїтивному рівні. AUCнасправді часто перевагу над точністю для двійкової класифікації з ряду різних причин. Спочатку, давайте поговоримо про те, що саме AUCє. Чесно кажучи, для того, щоб бути однією з найбільш широко використовуваних показників ефективності, дивно зрозуміти, як саме AUCпрацює.

AUCозначає Area Under the Curve, яку криву ви запитуєте? Ну, це була б ROCкрива. ROCрозшифровується як Приймач, що працює в характеристиці , що насправді трохи не інтуїтивно зрозуміло. Неявна мета AUC- розібратися з ситуаціями, коли у вас дуже перекошений вибірковий зразок, і ви не хочете переобладнати до одного класу.

Прекрасний приклад - виявлення спаму. Як правило, набори даних про спам сильно упереджені щодо шинки, або не спаму. Якщо ваш набір даних становить 90% шинки, ви можете отримати досить чортову хорошу точність, просто сказавши, що кожен електронний лист є шинкою, що, очевидно, щось, що вказує на неідеальний класифікатор. Почнемо з декількох показників, які є для нас трохи кориснішими, зокрема, справжня позитивна ставка ( TPR) та хибнопозитивна ставка ( FPR):

Осі ROC

Зараз у цьому графіку TPRконкретно є відношення істинного позитивного до всіх позитивних, і FPRце відношення хибнопозитивних до всіх негативів. (Майте на увазі, це стосується лише бінарної класифікації.) На такому графіку слід досить просто зрозуміти, що передбачення всіх 0 або всіх 1 призведе до точок (0,0)і (1,1)відповідно. Якщо ви намалюєте лінію через ці рядки, ви отримаєте щось подібне:

Вигляд як трикутник

Це в основному схоже на діагональну лінію (вона є), і за деякою легкою геометрією ви можете бачити, що AUCтакою моделлю було б 0.5(висота та основа - обидва 1). Аналогічно, якщо ви передбачите випадковий асортимент 0 і 1, скажімо, 90% 1, ви можете отримати точку (0.9, 0.9), яка знову падає по цій діагональній лінії.

Тепер приходить цікава частина. Що робити, якщо ми не передбачили лише 0 та 1? Що, якщо замість цього, ми хотіли сказати, що теоретично ми збираємося встановити відсічення, над яким кожен результат був 1, а нижче якого кожен результат був 0. Це означатиме, що в крайніх ситуаціях ви отримуєте початкову ситуацію, коли ви мають усі 0 і всі 1 (при відсічці 0 і 1 відповідно), а також ряд проміжних станів, які входять до 1x1графіка, який містить ваш ROC. На практиці ви отримуєте щось подібне: Люб’язно надано Вікіпедією

Тому в основному те, що ви насправді отримуєте при AUCнадмірній точності, - це те, що сильно відштовхуватиме людей від представників моделей, які є репрезентативними, але не дискримінаційними, оскільки це насправді вибирається лише для моделей, які досягають помилкових позитивних та справжніх позитивних показників, які значно вище випадкового шансу, що не гарантується для точності.


Чи можете ви додати, як AUC порівнюється з F1-балом?
День

7
@ Dan - Найбільша відмінність полягає в тому, що вам не потрібно встановлювати поріг прийняття рішення за допомогою AUC (це, по суті, вимірювання ймовірності спаму ранжирується вище не-спаму). Для показника F1 необхідний поріг прийняття рішення. Звичайно, ви завжди можете встановити поріг рішення як робочий параметр та графік F1-балів.
DSea

17

AUC та точність - це досить різні речі. AUC застосовується до двійкових класифікаторів, які мають певне поняття про поріг прийняття рішення. Наприклад, логістична регресія повертає позитивну / негативну залежно від того, чи є логістична функція більшим / меншим за поріг, як правило, 0,5 за замовчуванням. Вибираючи поріг, у вас є класифікатор. Ви повинні вибрати один.

Для заданого вибору порогу можна обчислити точність, яка є часткою справжніх позитивних і негативних значень у всьому наборі даних.

AUC вимірює як справжню позитивну ставку (відкликання), так і помилкову позитивну ставку, і тому в цьому сенсі вона вже вимірює щось інше. Що ще важливіше, AUC не є пороговою функцією. Це оцінка класифікатора, оскільки поріг змінюється в усіх можливих значеннях. Це в певному сенсі більш широка метрика, яка перевіряє якість внутрішнього значення, яке створює класифікатор, а потім порівнює з порогом. Це не тестування якості конкретного вибору порогу.

AUC має іншу інтерпретацію, і це те, що також існує ймовірність того, що випадково обраний позитивний приклад класифікується вище випадково обраного негативного прикладу, відповідно до внутрішнього значення класифікатора для прикладів.

AUC обчислюється навіть у тому випадку, якщо у вас є алгоритм, який створює рейтинг лише за прикладами. AUC не піддається обчисленню, якщо у вас справді є лише класифікатор чорного поля, а не той, який має внутрішній поріг. Зазвичай вони диктують, хто з двох доступний для існуючої проблеми.

Думаю, AUC є всеосяжнішим заходом, хоча він застосовується в меншій кількості ситуацій. Це не суворо краще, ніж точність; це інакше. Частково це залежить від того, чи дбаєте ви більше про справжні позитиви, помилкові негативи тощо.

F-міра більше схожа на точність, в тому сенсі, що це функція класифікатора і його встановлення порогу. Але він вимірює точність та відкликання (справжня позитивна швидкість), яка не є такою ж, як і вище.


Тому, якщо я хочу передбачити бінарний результат для набору спостережень, для яких розміри груп рівні (а саме дослідження контрольного випадку), я отримую щось, використовуючи AUC над точністю? Або типове використання AUC у таких дослідженнях обумовлено лише умовністю?
Джо,

AUC вимірює, наскільки класифікатор класифікує позитивні випадки вище, ніж негативний екземпляр, в той час як точність вимірює істинні та хибні позитивні значення для заданого порогу рішення. Я гадаю, це залежить від того, що відповідає тому, що ви хочете оцінити. AUC - це, можливо, більш всебічна міра класифікатора, незалежного від вибору порогу, але будь-яке фактичне використання класифікатора буде залежати від вибору порогу для класифікації
Шон Оуен

4

Я хотів би познайомитись із тим, як слід вибрати міру ефективності. До цього я торкнуся конкретного питання точності та AUC.

Як було сказано раніше, на незбалансованому наборі даних використання мажоритарного циклу як класифікатора призведе до високої точності, що зробить його оманливим заходом. Сукупність AUC над порогом довіри - для хорошого та поганого. На добро, ви отримуєте ваговий результат для всіх рівнів довіри. Погано в тому, що ви, як правило, дбаєте лише про рівень довіри, який ви фактично будете використовувати, а решта не мають значення.

Однак я хочу зауважити про вибір належного показника продуктивності для моделі. Ви повинні порівняти модель за її ціллю. Мета моделі - це не питання машинного навчання чи статистики, а питання ділової сфери та її потреб.

Якщо ви копаєте золото (сценарій, коли ви маєте величезну користь від справжнього позитивного, не надто високої вартості помилкового позитиву), то відкликання - хороший захід.

Якщо ви намагаєтеся вирішити, чи слід проводити складну медичну процедуру на людях (висока вартість хибнопозитивного, сподіваємось, низька вартість помилкового негативного), точність - це міра, яку ви повинні використовувати.

Можна застосувати безліч заходів. Також їх можна комбінувати різними способами.

Однак універсальної «найкращої» міри немає. Існує найкраща модель для ваших потреб, та, яка, максимізуючи її, максимізує вашу користь.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.