Я виявив, що Він і Гарсія (2009) є корисним оглядом навчання у незбалансованих класових проблемах. Ось кілька, безумовно, не всебічних речей, які слід врахувати:
Підходи, засновані на даних:
Можна підкреслити мажоритарний клас або переоцінити вибір міноритарного класу. (Брейман зауважив, що це формально є рівнозначним призначенню витрат на нерівномірну помилкову класифікацію.) Це може спричинити проблеми. перенапруження збільшує ризик перевитрати.
Існують методи «поінформованого підкреслення», які зменшують ці проблеми. Один з них - EasyEnsemble , який незалежно відбирає декілька підмножин з класу мажоритарників та робить декілька класифікаторів, поєднуючи кожен підмножина з усіма даними класу меншин.
SMOTE (Техніка синтезу синтетичних меншин) або SMOTEBoost (поєднуючи SMOTE з розширенням) створюють синтетичні екземпляри класу меншостей, створюючи найближчих сусідів у просторі функцій. SMOTE реалізований в R в пакеті DMwR (який супроводжує книгу Луїса Торго «Майнінг даних з R, навчання з кейсів» CRC Press 2016 ).
Модельні підходи
Застосовуйте конкретні ваги у вашій функції втрат (більша вага для випадків меншості).
Для підходів на основі дерева можна використовувати відстань Хеллінгера як функцію домішки вузла, як це пропонується у Cieslak et al. "Дерева рішень Хеллінгера є надійними та невідчутливими до перекосу" ( код Weka тут .)
Використовуйте a класифікатор одного класу , вивчаючи або (залежно від моделі) густину й границю ймовірності для одного класу, а інший клас розглядаєте як випускники.
Звичайно, не використовуйте точність як метрику для побудови моделі. Каппе Коена - розумна альтернатива.
Модельні підходи до оцінки
Якщо ваша модель повертає передбачувані ймовірності чи інші результати, обрала рішення, яке дозволяє зробити відповідне компроміс помилок (використовуючи набір даних, незалежний від навчання та тестування). У програмі R пакет OptimalCutpoints реалізує низку алгоритмів, у тому числі чутливих до витрат, для вирішення питання про скорочення.