Чи страждає класифікація GBM від незбалансованих розмірів класів?


16

Я маю справу з контрольованим питанням бінарної класифікації. Я хотів би використовувати пакет GBM для класифікації людей як незаражених / інфікованих. У мене в 15 разів більше незаражених, ніж заражених.

Мені було цікаво, чи страждають моделі GBM у разі незбалансованих розмірів класу? Я не знайшов жодних посилань, що відповідали б на це запитання.

Я спробував відрегулювати вагу, призначивши вазі 1 неінфікованим особам і вазі 15 інфікованим, але отримав погані результати.


1
(бічна примітка) Було б корисно, якщо ви вказали, що означає GBM, та посилання на пакет.
Спогад

1
Яку функцію втрат ви використовуєте для вашої моделі збільшення градієнта? Що стосується незбалансованих класів, я бачив низьку продуктивність, коли використовував середню абсолютну помилку, оскільки, здається, це сприяє найпоширенішому класу. Коли я використав помилку середнього квадрату, продуктивність значно покращилась
Раян Зотті

Щойно для подальшої довідки, я вважаю, що функція втрати за замовчуванням, яка використовується логарифмічною втратою карети (перехресне відхилення), також дуже корисна. (Це тяжко карає за неправильні випадки в негативній логарифмічній шкалі)
Лілі Лонг

Відповіді:


4

На мій досвід, GBM дійсно страждає від незбалансованих розмірів класів. Я мав добрий успіх у використанні вибірки SMOTE, яка створює синтетичні дані при перенапруженні міноритарного класу. Ви можете знайти його в DMwRупаковці.


Я трохи розгублений. Чи не повинен ГБМ бути підходом до усунення дисбалансу даних? Перевірте це analyticsvidhya.com/blog/2017/03/…
Lamothy

5

Я думаю, що ваші дані схожі на дані Secom, над якими я працював у минулому і зіткнувся з великими труднощами. Далі я спробував:

  • Різні методи відбору проб
  • Різні класифікатори, такі як Random Forest, ANN, GBM, Ensemble method тощо.

Я також спробував 1-класовий SVM, який дав кращі результати порівняно з іншими, такими як adaboost, Random Forest. Ви можете спробувати і це.

І я можу бачити, що ви задали це питання ще рік тому, якщо ви знайшли найкращий спосіб, то ласкаво опублікуйте його тут, щоб я міг отримати допомогу в ньому, щоб отримати кращу точність.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.