(Щоб дати коротку відповідь на це :)
Добре використовувати алгоритм машини для підвищення градієнта при роботі з незбалансованим набором даних. При роботі з сильно незбалансованим набором даних набагато актуальніше поставити під сумнів відповідність використовуваного показника. Ми потенційно повинні уникати метрик, таких як Точність або Згадати, які ґрунтуються на довільних порогових значеннях, і вибирати такі показники, як AUCPR або Brier оцінка, які дають більш точну картину - див. Чудову тему CV.SE про: Чому точність не є найкращий захід для оцінки класифікаційних моделей? для більш). Крім того , ми могли б потенційно використовувати економічно чутливий підхід, призначаючи різні ціни помилки класифікації (наприклад , див Masnadi-Ширазі і Vasconcelos (2011) Економічно Sensitive Активізаціїдля загального перегляду та запропонованих змін до відомих алгоритмів підсилення або для конкретної цікавої програми з більш простим підходом перевірити звіт про виклик Хіггса Босона для алгоритму XGBoost; Chen & He (2015) Відкриття Хіггса Бозона з підсиленими деревами надає більш детальну інформацію).
Варто також зазначити, що якщо ми використовуємо імовірнісний класифікатор (як ГБМ), ми можемо / мусимо активно вивчати калібрування повернених ймовірностей (наприклад, див. Задрозний та Елкан (2002). Трансформування класифікатора підраховує в точні оцінки багатокласності ймовірності або Kull et al. ( 2017) Бета-калібрування: обґрунтоване та легко впроваджене покращення логістичної калібрування для двійкових класифікаторів ), щоб потенційно підвищити ефективність нашого учня. Особливо, коли робота з незбалансованими даними адекватно фіксує зміни тенденцій, може бути більш інформативною, ніж просто маркування даних. У цій мірі деякі можуть стверджувати, що підходи, що відрізняються від витрат, зрештою не є такими вигідними (наприклад, див. Nikolaou et al. (2016))Витратні алгоритми підвищення рівня: чи справді вони нам потрібні? ). Знову ж таки, щоб повторити вихідну точку, алгоритми прискорення не є по суті поганими для незбалансованих даних, і в деяких випадках вони можуть запропонувати дуже конкурентоспроможний варіант.