Який найкращий спосіб класифікувати підходи, розроблені для вирішення проблеми класу дисбалансу?
Ця стаття класифікує їх на:
- Попередня обробка: включає в себе передискретизацію, піддискретизацію та гібридні методи,
- Навчання, що залежить від затрат: включає прямі методи та мета-навчання, які останнє ділить на порог та вибірку,
- Ансамблеві прийоми: включає в себе рентабельні ансамблі та попередню обробку даних у поєднанні з ансамблевим навчанням.
Друга класифікація:
- Попередня обробка даних: включає зміну розподілу та зважування простору даних. Навчання в одному класі розглядається як зміна розповсюдження.
- Методи навчання спеціального призначення
- Попередня обробка прогнозування: включає пороговий метод та чутливу до витрат пост-обробку
- Гібридні методи:
Третя стаття :
- Методи рівня даних
- Методи рівня алгоритмів
- Гібридні методи
Остання класифікація також розглядає коригування виробництва як самостійний підхід.
Заздалегідь спасибі.
4
Дуже коротка відповідь: всі вони найкращі, і всі вони найгірші! Класифікація та обмін даними взагалі дуже залежать від контексту. У цьому домені немає рішення, що відповідає одному розміру. До речі, найкращий підхід, в дуже загальному плані, зазвичай - це поєднання найкращих рішень на різних рівнях - від вилучення функції до схеми оцінювання.
—
мок
@mok Дякую Чи можете ви, будь ласка, дозволити мені знати вагу класу в класифікаторах sklearn, наприклад, в яку категорію класифікується логістична регресія?
—
ebrahimi
@ebrahimi, це повинно впасти на рівень алгоритму, оскільки тільки ваги регулюються відповідно до пройденого словника або розраховуються (виводяться) відповідно до значень y (class), а дані залишаються недоторканими.
—
Санджай Кришна
@SanjayKrishna Дякую велике У разі першої категоризації вона потрапляє до чутливого до навчання часу, чи не так? Крім того, у випадку другої таксономії вона була б класифікована до третьої категорії, тобто рентабельної після обробки. це правда? Друга відповідь на це: stackoverflow.com/questions/32492550/… також корисна.
—
ebrahimi