Класифікаційні / оціночні показники для сильно незбалансованих даних


22

Я маю справу з проблемою виявлення шахрайства (як кредитно-рахунковий). Як такий, існує сильно незбалансований зв’язок між шахрайськими та не шахрайськими спостереженнями.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html надає чудовий огляд різних класифікаційних показників. Precision and Recallабо kappaобидва здаються хорошим вибором:

Одним із способів обґрунтувати результати таких класифікаторів є порівняння їх з результатами базових класифікаторів та показ, що вони справді кращі, ніж передбачення випадкових випадків.

Наскільки я розумію, тут kappaможе бути дещо кращий вибір, оскільки враховується випадковий шанс . З капи Коена на звичайній англійській мові я розумію, що kappaйдеться про концепцію отримання інформації:

[...] Спостережена точність у 80% набагато менш вражає, якщо очікувана точність 75% порівняно з очікуваною точністю 50% [...]

Тому мої запитання будуть:

  • Чи правильно вважати, kappaщо це краща класифікаційна метрика для цієї проблеми?
  • Чи просто використання kappaзапобігає негативному впливу дисбалансу на алгоритм класифікації? Чи все-таки потрібне повторне (вниз / вгору) -пробоване навчання або навчання на основі витрат (див. Http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?

вибірки ваших даних вгору / вниз - це те, що ви повинні робити, коли дані про навчання не врівноважуються, а іноді можуть допомогти запобігти ігноруванню класифікаторів міноритарних класів. Недоцільно (і трохи шахрайсько) використовувати повторно впорядковані дані при оцінці класифікатора - ви будете повідомляти про ефективність, якої у вашого класифікатора немає, коли він застосовується на вибірці, ідентично розподіленому на вихідні дані тесту.
user48956

Відповіді:


10

Так, ваші припущення щодо Каппи здаються правильними. Каппа як одиночна, скалярна метрика - це здебільшого та перевага перед іншими одиночними, скалярними показниками, такими як точність, яка не відображатиме показники прогнозування для менших класів (відтіняється продуктивністю будь-якого значно більшого класу). Каппа вирішує цю проблему більш елегантно, як ви вказали.

Використання такого показника, як Kappa для вимірювання ефективності, не обов'язково збільшить наскільки ваша модель підходить до даних. Ви можете виміряти ефективність будь-якої моделі за допомогою ряду метрик, але те, як модель відповідає розмірам даних, визначається за допомогою інших параметрів (наприклад, гіперпараметрів). Таким чином, ви можете використовувати, наприклад, Kappa для вибору найбільш підходящого типу моделі та гіперпараметризації серед декількох варіантів для вашої дуже незбалансованої проблеми - але просто обчислення самого Kappa не змінить те, як ваша модель відповідає вашим незбалансованим даним.

Для різних показників: крім Kappa та точності / згадування, також подивіться на справжні позитивні та справжні негативні показники TPR / TNR, криві ROC та площу під кривою AUC. Які з них корисні для вашої проблеми, в основному залежатимуть від деталей вашої мети. Наприклад, різну інформацію, відображену в TPR / TNR та точність / відкликання: ваша мета - мати високу частку шахрайств, фактично виявлених як таких, і високу частку законних транзакцій, виявлених як таких, та / або мінімізувати частку. помилкових сигналів тривоги (які ви, природно, отримаєте "масову" з такими проблемами) у всіх сигналах тривоги?

Щодо збільшення / зменшення розміру: Я думаю, що немає канонічної відповіді на те, "якщо це потрібно". Вони більше є одним із способів адаптації вашої проблеми. Технічно: так, ви можете використовувати їх, але використовуйте їх обережно, особливо пересуваючи (ви можете в кінцевому підсумку створити нереалістичні зразки, не помічаючи цього) - і пам’ятайте, що зміна частоти вибірки обох класів на щось нереалістичне »в дикій природі "може також мати негативний вплив на ефективність прогнозування. Принаймні остаточний, проведений тестовий набір повинен знову відображати частоту реального життя зразків. Підсумок: я бачив обидва випадки, коли виконання та не виконання надмірного / нижнього кемпінгу призвели до кращих кінцевих результатів, тому це може знадобитися спробувати (але не маніпулюйте набором тестів) .


Але чи підходить підхід на основі витрат, як DOI 10.1109 / ICMLA.2014.48, оскільки враховується загальний вплив на бізнес?
Георг Хайлер

15

ТПЖПЖN

  • Оцінка F1 , що є гармонійним середнім значенням точності та відкликання .
  • G-міра , яка є геометричним середнім значенням точності та відкликання . Порівняно з F1, я вважаю це трохи краще для незбалансованих даних.
  • ТП/(ТП+ЖП+ЖN)

Примітка. Для незбалансованих наборів даних найкраще, щоб ваші показники були середньомакрокосмічними .


1
Що ви маєте на увазі під «кращим», коли йдеться про G-міру та індекс Жакарда?
Нарфанар

8

Для незбалансованих наборів даних показник середньої точності іноді є кращою альтернативою AUROC. Оцінка AP - це площа під кривою точності відкликання.

Ось дискусія з деяким кодом (Python)

Ось папір .

Також див. Криві точності нагадування-посилення Пітера Флача , а також обговорення недоліків кривих AP.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.