Коли нам слід вважати набір даних незбалансованим?


10

Я стикаюся з ситуацією, коли кількість позитивних та негативних прикладів у наборі даних є незбалансованим.

Моє запитання: чи існують якісь принципові правила, які підказують нам, коли нам слід підпробовувати велику категорію, щоб змусити якесь врівноваження в наборі даних.

Приклади:

  • Якщо кількість позитивних прикладів становить 1000, а кількість негативних прикладів - 10 000, чи варто мені пройти навчання мого класифікатора за повним набором даних або я повинен підпробовувати негативні приклади?
  • Те саме питання для 1000 позитивних прикладів і 100 000 негативних.
  • Те саме питання для 10 000 позитивних та 1000 негативних.
  • тощо ...

Немає нічого поганого з наборами даних, які самі по собі не розбиваються ідеально по середині. Яку техніку моделювання ви використовуєте? Якщо методика спирається на "збалансовані" дані, можливо, ви використовуєте неправильну техніку.
D3C34C34D

1
Ніна Zumel розглядає вплив балансує на різних оцінках тут , це може допомогти іншим , а також. Вона дивиться на випадковий ліс, SVM та logit оцінку.
CFM

Відповіді:


9

Я думаю, що підсимуляція (downsampling) - популярний метод контролю дисбалансу класів на базовому рівні, тобто він виправляє корінь проблеми. Отже, для всіх ваших прикладів, кожен раз, коли вибиратиметесь випадковим чином, вибираючи 1000 більшості класів. Ви навіть можете пограти, зробивши 10 моделей (10 складок на 1000 більшості проти 1000 меншин), щоб ви використовували весь набір даних. Ви можете використовувати цей метод, але знову ж таки ви кидаєте 9000 зразків, якщо ви не спробуєте якісь ансамблеві методи. Легко виправити, але важко отримати оптимальну модель на основі ваших даних.

Ступінь, до якої потрібно контролювати дисбаланс класу, багато в чому залежить від вашої мети. Якщо ви переймаєтесь чистою класифікацією, то дисбаланс вплине на 50% -ву ймовірність відключення для більшості методик, тому я б вважав зниженням часу. Якщо ви дбаєте лише про порядок класифікацій (хочете, щоб позитиви, як правило, були вищими за негативні) та використовували такий показник, як AUC, дисбаланс класів лише змістить ваші ймовірності, але відносний порядок повинен бути пристойно стабільним для більшості методик.

Логістичний регрес приємний для дисбалансу класів, оскільки, поки у вас є> 500 класу міноритарності, оцінки параметрів будуть досить точними, і єдиний вплив буде на перехоплення, яке можна виправити, якщо це щось, що ви можете хочу. Логістична регресія моделює ймовірності, а не просто класи, тому ви можете зробити більше ручних коригувань відповідно до ваших потреб.

Багато методів класифікації також мають аргумент вагомості класу, який допоможе вам більше зосередитись на класі меншості. Це покарає промахування класифікації справжнього класу меншин, тож ваша загальна обачливість трохи постраждає, але ви почнете бачити більше класів меншин, які правильно класифіковані.


Чи можете ви розширити свої вказівки щодо "поки у вас є> 500 класу меншин"? Звідки ви взяли цю кількість 500? Це базується на вашому досвіді? Я очікував відсотка від вашої відповіді.
Яс

2

Дисбаланс формально не визначається, але відношення від 1 до 10 зазвичай є недостатньо збалансованим, щоб отримати користь від використання техніки балансування.

Існує два типи дисбалансу, відносний і абсолютний. Відносно співвідношення між класами більшості та меншин є незбалансованими. В абсолютному випадку ви також маєте невелику кількість зразків меншин. Чим вище коефіцієнт дисбалансу, тим більше шансів на те, що ви досягнете і абсолютного дисбалансу.

Зауважте, що пряма передпромінна підсистема не є оптимальним способом впоратися з незбалансованим набором даних. Це тому, що вам слід створити класифікатор, який буде добре працювати на початковому наборі даних. Про техніку побудови класифікаторів на незбалансованих наборах даних дивіться тут . Про оцінку вашого класифікатора дивіться тут .


2

Проблема дисбалансу даних ?? Теоретично мова йде лише про числа. Навіть якщо різниця дорівнює 1 вибірці, це дисбаланс даних

На практиці говорячи, що це проблема дисбалансу даних, яка контролюється трьома речами: 1. Кількість та розподіл зразків, які у вас є 2. Варіація в межах одного класу 3. Подібність між різними класами

Останні два моменти змінюють те, як ми вважаємо нашу проблему.

Щоб пояснити це, дозвольте навести приклад: Клас А = 100 зразків Клас В = 10 000

Якщо варіація класу B дуже мала, тоді вибірки вниз буде достатньо, проблем з дисбалансом даних немає

Якщо варіація в класі b дуже велика, то вибірковий аналіз вниз може призвести до втрати інформації. Небезпечно застосовувати вибірку вниз

Ще один момент: наявність великої кількості зразків (головним чином для класу меншин) дозволить зняти проблему дисбалансу даних та полегшить справу з

Наприклад 10: 100. Vs. 1000: 10 000

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.