Як вибрати між ROC AUC та F1 балом?


26

Нещодавно я завершив змагання з Kaggle, в якому оцінку roc auc використовували згідно вимог змагань. Перед цим проектом я зазвичай використовував показник f1 як показник для вимірювання продуктивності моделі. Ідучи вперед, мені цікаво, як мені вибрати між цими двома показниками? Коли використовувати які та які їх плюси і мінуси?

До речі, я прочитав тут статтю Які відмінності між AUC та F1-балом? , але це не підказує мені, коли ними користуватися.

Заздалегідь дякую за будь-яку допомогу!

Відповіді:


14

Жоден із перелічених тут заходів не є належними правилами оцінювання точності, тобто правилами, оптимізованими правильною моделлю. Розглянемо оцінку Brier та заходи, засновані на імовірності, такі як псевдо . -index (AUROC; конкорданс ймовірність) не є правильним , але це добре для опису однієї моделі. Він недостатньо чутливий, щоб використовувати для вибору моделей або порівняння навіть не менше двох моделей.R2c


Дякую за вашу відповідь Френк! Мені потрібно додаткове уточнення, будь ласка. Якщо ми можемо вибрати лише ROC AUC та F1, який би ви обрали і чому? Які плюси і мінуси обох?
Джордж Лю

2
Якщо вам дозволяється вибирати лише -index та F1, ви не сперечаєтесь досить сильно. Золотим стандартом є імовірність зрубу, пеналізована ймовірність зрубу або байєсівський еквівалент (наприклад, DIC). Поруч - оцінка Brier. c
Френк Харрелл

2
Дивіться citeulike.org/user/harrelfe/article/14321176 ; Я показав це за допомогою власних симуляцій. Якщо дисбаланс не пов’язаний із перенапруженням / недооціненням, ви можете скористатися будь-яким правильним балом, незалежно від дисбалансу.
Френк Харрелл

1
@FrankHarrell: посилання є мертвою, чи можете ви її повторно перевірити?
SiXUlm

13

Формула розрахунку:

  • Точність TP / (TP + FP)
  • Нагадаємо: TP / (TP + FN)
  • F1-оцінка: 2 / (1 / P + 1 / R)
  • ROC / AUC: TPR = TP / (TP + FN), FPR = FP / (FP + TN)

ROC / AUC - це ті ж критерії, а крива PR (Precision-Recall) (F1-бал, Precision, Recall) також однакові.

Реальні дані, як правило, мають дисбаланс між позитивними та негативними вибірками. Цей дисбаланс має великий вплив на PR, але не на ROC / AUC.

Тож у реальному світі крива PR використовується більше, оскільки позитивні та негативні вибірки дуже неоднакові. Крива ROC / AUC не відображає продуктивність класифікатора, але крива PR може.

Якщо ви просто зробите експеримент у науково-дослідних роботах, можете використовувати ROC, результати експериментів будуть прекраснішими. З іншого боку, крива PR використовується в реальній проблемі, і вона має кращу інтерпретацію.


7

Наведені вище відповіді хороші.

Sкеш=негатivеехамpлесpосiтivеехамpлес

З незбалансованими даними AUC все ще дає значне значення близько 0,8. Однак він високий завдяки великій ПП, а не великій ТП (справжній позитивний).

Наприклад, наведений нижче приклад,

TP=155,   FN=182
FP=84049, TN=34088

Отже, коли ви використовуєте AUC для вимірювання продуктивності класифікатора, проблема полягає в тому, що підвищення AUC насправді не відображає кращого класифікатора. Це лише побічна дія занадто багатьох негативних прикладів. Ви можете просто спробувати у вас набір даних.

Жβ=(1+β2)prеciсiонrеcалл(β2prеciсiон)+rеcалл

β

Потім мої пропозиції щодо незбалансованих даних схожі на цю публікацію . Ви також можете спробувати таблицю децилів, яка може бути побудована за допомогою пошуку "Класифікації двох та двох класифікацій та децилів". Тим часом я також вивчаю цю проблему і дам кращу міру.


Якщо ви дбаєте про ефективність того чи іншого методу, вам краще використовувати ROC, щоб показати його класифікаційну ефективність, але якщо ви більше дбаєте про фактичне прогнозування справжнього позитивного, показник F1 вітається в промисловості.
Xiaorui Zhu

2
У реальній бізнес-ситуації можна оцінити витрати на помилкові позитиви та витрати на помилковий негатив. Тоді остаточна класифікація повинна базуватися на ймовірнісній моделі та обраному порозі класифікації для мінімізації витрат на помилкові класифікації. Я не думаю, що точність, або F балів, мають багато реальних застосувань для дисциплінованого вченого.
Метью Друрі

Так, я погоджуюся з процедурою методу прийняття рішення, який мінімізує вартість помилкової імовірності відключення wrt і моделі. І в деяких випадках асиметрична вартість може застосовуватися до ПЗ та ФН. Але суть точності та балів F полягає в тому, щоб перевірити загальну продуктивність моделі або порівняти продуктивність між декількома моделями. Дійсно, маючи дані, що працюють в ролі науковця даних, мінімізація витрат може бути завжди можливою. Але мені цікаво, чи можуть науковці з практичними даними потребують розподілу (або варіації) рішення проблеми рішення. Мені хотілося б дізнатися, чи можете ви поділитися зі мною. Thx
Xiaorui Zhu

1
Особисто я б завжди оцінював корисність придатності моделі на основі умовних ймовірностей, які вона прогнозує. Тому я б завжди порівнював моделі, використовуючи правильне правило балів, наприклад втрата журналу, використовуючи завантажувальну систему, щоб переконатися, що поліпшення не є шумом, і, можливо, доповнити AUC.
Меттью Друрі

2
Я не думаю, що це правда. AUC спеціально побудований для нечутливості до дисбалансу класів, я робив обширні симуляції з цього приводу і виявив, що це правда. Також, порівнюючи моделі, вони повинні будуватись на наборах даних, вибірених із однієї сукупності, що робить будь-яку проблему з дисбалансом класу нульовою.
Меттью Друрі

4

Якщо говорити про прості слова, коли у вас є дисбаланс даних, тобто різниця між кількістю прикладів для позитивних та негативних класів велика, завжди слід використовувати показник F1. В іншому випадку ви можете використовувати криві ROC / AUC.


Ваше визначення поняття "дисбаланс даних" таке, що ви майже завжди використовуєте F1-бал, тому це не дуже допоможе. Можливо, ви могли б трохи розширити це?
jbowman

Я пропустив там дуже важливе слово ... вибачення. Відредагував мою відповідь. Повідомте мене, якщо вам потрібно більше роз'яснень.
balboa

1

Для деяких проблем класифікації багатокласників аналіз та візуалізація ROC / AUC не є простим. Ви можете заглянути в це запитання: Як побудувати криві ROC в класичній класифікації? . За такої ситуації використання показника F1 може бути кращим показником.

А оцінка F1 - це звичайний вибір проблеми пошуку інформації та популярна в галузевих налаштуваннях. Ось добре пояснений приклад: Створення моделей ML важко. Розгортати їх у реальних бізнес-середовищах важче .


1

Якщо метою класифікації є оцінка за ймовірністю, краще використовувати AUC, який в середньому перевищує всі можливі пороги. Однак, якщо мета класифікації просто потребує класифікації між двома можливими класами і не вимагає, наскільки ймовірність кожного класу передбачена моделлю, то більш доцільно покластися на F-бал, використовуючи певний поріг.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.