Я думаю, що підсимуляція (downsampling) - популярний метод контролю дисбалансу класів на базовому рівні, тобто він виправляє корінь проблеми. Отже, для всіх ваших прикладів, кожен раз, коли вибиратиметесь випадковим чином, вибираючи 1000 більшості класів. Ви навіть можете пограти, зробивши 10 моделей (10 складок на 1000 більшості проти 1000 меншин), щоб ви використовували весь набір даних. Ви можете використовувати цей метод, але знову ж таки ви кидаєте 9000 зразків, якщо ви не спробуєте якісь ансамблеві методи. Легко виправити, але важко отримати оптимальну модель на основі ваших даних.
Ступінь, до якої потрібно контролювати дисбаланс класу, багато в чому залежить від вашої мети. Якщо ви переймаєтесь чистою класифікацією, то дисбаланс вплине на 50% -ву ймовірність відключення для більшості методик, тому я б вважав зниженням часу. Якщо ви дбаєте лише про порядок класифікацій (хочете, щоб позитиви, як правило, були вищими за негативні) та використовували такий показник, як AUC, дисбаланс класів лише змістить ваші ймовірності, але відносний порядок повинен бути пристойно стабільним для більшості методик.
Логістичний регрес приємний для дисбалансу класів, оскільки, поки у вас є> 500 класу міноритарності, оцінки параметрів будуть досить точними, і єдиний вплив буде на перехоплення, яке можна виправити, якщо це щось, що ви можете хочу. Логістична регресія моделює ймовірності, а не просто класи, тому ви можете зробити більше ручних коригувань відповідно до ваших потреб.
Багато методів класифікації також мають аргумент вагомості класу, який допоможе вам більше зосередитись на класі меншості. Це покарає промахування класифікації справжнього класу меншин, тож ваша загальна обачливість трохи постраждає, але ви почнете бачити більше класів меншин, які правильно класифіковані.