Чи підходить збільшення градієнта для даних із низькими показниками подій, як 1%?


14

Я намагаюся збільшити градієнт на наборі даних зі швидкістю події близько 1% за допомогою майнера Enterprise, але це не вдається отримати жодного результату. Моє питання, оскільки це підхід на основі дерева рішень, чи правильно використовувати градієнтний прискорення при такій низькій події?


3
Ви маєте справу з незбалансованим набором даних. Підвищення - це справді хороший спосіб впоратися з цим. Детальніше дивіться stats.stackexchange.com/questions/157940/…
DaL

Але для мене логістична регресія дає кращі результати, ніж збільшення випадкових лісів або градієнтів. Я хотів покращити продуктивність своєї моделі, спробувавши підсилені дерева.
користувач2542275

Підвищення базується на слабких класифікаторах. Теоретично це зробить будь-який слабкий класифікатор, який трохи кращий за випадковий. На практиці різні алгоритми більше підходять для деяких наборів даних, тому важливий слабкий класифікатор, який ви обираєте. Чи можете ви детальніше вказати про використовувані алгоритми, їх результати та набір даних?
DaL

Гаразд. Про набір даних: розмір вибірки> 4 м, коефіцієнт події = 1,2%. Кількість прогнозів, що мають значне р-значення <0,05, становить 150. Логістична регресія з найбільш значущими змінними призвела до зростання 3 на 20% населення. Нейронна мережа підняла приблизно 2,8. Збільшення градієнта не дало жодного результату, поки я не використав стратифіковану вибірку із зворотними попередніми вагами. Але продуктивність погана.
користувач2542275

Оскільки ваш набір даних досить великий, у вас повинно бути достатньо зразків вашого класу меншин, тому проблема пов'язана з відносним дисбалансом. У вас є досить багато функцій, але не надто багато, але дійсно дерево рішень менш підходить для таких наборів даних. Я пропоную вам створити збалансований набір даних і подивитися, наскільки добре працюють ваші алгоритми. Тоді ви зможете застосувати алгоритм до початкового набору даних так, як я описав у першому коментарі.
DaL

Відповіді:


7

(Щоб дати коротку відповідь на це :)

Добре використовувати алгоритм машини для підвищення градієнта при роботі з незбалансованим набором даних. При роботі з сильно незбалансованим набором даних набагато актуальніше поставити під сумнів відповідність використовуваного показника. Ми потенційно повинні уникати метрик, таких як Точність або Згадати, які ґрунтуються на довільних порогових значеннях, і вибирати такі показники, як AUCPR або Brier оцінка, які дають більш точну картину - див. Чудову тему CV.SE про: Чому точність не є найкращий захід для оцінки класифікаційних моделей? для більш). Крім того , ми могли б потенційно використовувати економічно чутливий підхід, призначаючи різні ціни помилки класифікації (наприклад , див Masnadi-Ширазі і Vasconcelos (2011) Економічно Sensitive Активізаціїдля загального перегляду та запропонованих змін до відомих алгоритмів підсилення або для конкретної цікавої програми з більш простим підходом перевірити звіт про виклик Хіггса Босона для алгоритму XGBoost; Chen & He (2015) Відкриття Хіггса Бозона з підсиленими деревами надає більш детальну інформацію).

Варто також зазначити, що якщо ми використовуємо імовірнісний класифікатор (як ГБМ), ми можемо / мусимо активно вивчати калібрування повернених ймовірностей (наприклад, див. Задрозний та Елкан (2002). Трансформування класифікатора підраховує в точні оцінки багатокласності ймовірності або Kull et al. ( 2017) Бета-калібрування: обґрунтоване та легко впроваджене покращення логістичної калібрування для двійкових класифікаторів ), щоб потенційно підвищити ефективність нашого учня. Особливо, коли робота з незбалансованими даними адекватно фіксує зміни тенденцій, може бути більш інформативною, ніж просто маркування даних. У цій мірі деякі можуть стверджувати, що підходи, що відрізняються від витрат, зрештою не є такими вигідними (наприклад, див. Nikolaou et al. (2016))Витратні алгоритми підвищення рівня: чи справді вони нам потрібні? ). Знову ж таки, щоб повторити вихідну точку, алгоритми прискорення не є по суті поганими для незбалансованих даних, і в деяких випадках вони можуть запропонувати дуже конкурентоспроможний варіант.


Я вважаю, що барове оцінювання еквівалентно мірі точності, тому матиме ті ж обмеження, що і Точність при оцінці моделей рідкісних подій.
RobertF

Коефіцієнт бар'єру не рівнозначний точності. Зверніть увагу, що ми використовуємо передбачувану ймовірність для обчислення оцінки Brier, тоді як для розрахунку точності використовуємо мітки, засновані на жорсткому порогу прогнозованих ймовірностей.
usεr11852

Дякую за уточнення - використання прогнозованої ймовірності, а не 0/1 для передбачуваного класу має більше сенсу.
RobertF

Класно. Я радий, що ми це розібрали! :)
usεr11852
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.