Категоризація підходів для боротьби з незбалансованими класами


8

Який найкращий спосіб класифікувати підходи, розроблені для вирішення проблеми класу дисбалансу?

Ця стаття класифікує їх на:

  1. Попередня обробка: включає в себе передискретизацію, піддискретизацію та гібридні методи,
  2. Навчання, що залежить від затрат: включає прямі методи та мета-навчання, які останнє ділить на порог та вибірку,
  3. Ансамблеві прийоми: включає в себе рентабельні ансамблі та попередню обробку даних у поєднанні з ансамблевим навчанням.

Друга класифікація:

  1. Попередня обробка даних: включає зміну розподілу та зважування простору даних. Навчання в одному класі розглядається як зміна розповсюдження.
  2. Методи навчання спеціального призначення
  3. Попередня обробка прогнозування: включає пороговий метод та чутливу до витрат пост-обробку
  4. Гібридні методи:

Третя стаття :

  1. Методи рівня даних
  2. Методи рівня алгоритмів
  3. Гібридні методи

Остання класифікація також розглядає коригування виробництва як самостійний підхід.

Заздалегідь спасибі.


4
Дуже коротка відповідь: всі вони найкращі, і всі вони найгірші! Класифікація та обмін даними взагалі дуже залежать від контексту. У цьому домені немає рішення, що відповідає одному розміру. До речі, найкращий підхід, в дуже загальному плані, зазвичай - це поєднання найкращих рішень на різних рівнях - від вилучення функції до схеми оцінювання.
мок

@mok Дякую Чи можете ви, будь ласка, дозволити мені знати вагу класу в класифікаторах sklearn, наприклад, в яку категорію класифікується логістична регресія?
ebrahimi

@ebrahimi, це повинно впасти на рівень алгоритму, оскільки тільки ваги регулюються відповідно до пройденого словника або розраховуються (виводяться) відповідно до значень y (class), а дані залишаються недоторканими.
Санджай Кришна

@SanjayKrishna Дякую велике У разі першої категоризації вона потрапляє до чутливого до навчання часу, чи не так? Крім того, у випадку другої таксономії вона була б класифікована до третьої категорії, тобто рентабельної після обробки. це правда? Друга відповідь на це: stackoverflow.com/questions/32492550/… також корисна.
ebrahimi

Відповіді:


5

Те, як я бачу, всі три категоризації багато в чому згодні. Наприклад, усі три мають категорію для етапів попередньої обробки.

Я б схильний здебільшого погоджуватися щодо третьої категоризації як її більш загальної та охоплює більше речей.

  • Дані рівня категорія включає в себе будь-які попередні обробках кроків , що стосується клас дисбаланс (наприклад , над / під вибіркою).
  • Алгоритм рівня можна розглянути питання про включення другої категорії перших двох статей. Будь-яка зміна алгоритму, який стосується дисбалансу класів, піде тут (наприклад, зважування класу).
  • Нарешті, гібридна категорія для поєднання двох.

Єдине, чого не вистачає у перших двох статтях - це етапи після обробки, які, якщо чесно сказати, використовуються на практиці не так часто, як інші.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.