У недавньому, добре сприйнятому питанні, Тім запитує, коли незбалансовані дані насправді є проблемою в машинному навчанні ? Передумова питання полягає в тому, що існує багато машинної літератури, яка обговорює баланс класів та проблему незбалансованих класів . Ідея полягає в тому, що набори даних з дисбалансом між позитивним та негативним класом викликають проблеми в деяких класифікаціях машинного навчання (я включаю тут ймовірнісні моделі) алгоритмів, і методи слід шукати, щоб "збалансувати" набір даних, відновивши ідеальні 50/50 розподіл між позитивними та негативними класами.
Загальний сенс відповідей, що підкріплюються, полягає в тому, що "це не так, принаймні, якщо ти продуманий у своєму моделюванні". М. Генрі Л. у коментарі до прийнятої відповіді заявляє
[...] немає проблем низького рівня з використанням незбалансованих даних. На мій досвід, порада "уникати незбалансованих даних" є або алгоритмом, або успадкованою мудрістю. Я погоджуюся з AdamO, що в цілому незбалансовані дані не становлять концептуальної проблеми для чітко визначеної моделі.
AdamO стверджує, що «проблема» з класовим балансом справді є рідкістю класу
Тому, принаймні, в регресії (але я підозрюю, що за будь-яких обставин) єдина проблема з незбалансованими даними полягає в тому, що ви фактично маєте невеликий розмір вибірки. Якщо який-небудь метод підходить для кількості людей рідшого класу, не повинно виникнути жодних проблем, якщо їх пропорційне членство є незбалансованим.
Якщо це справжнє питання, воно залишає відкритим питання: яка мета всіх методів перекомпонування, призначених для врівноваження набору даних: пересимплінг, піддискретизація, SMOTE тощо? Очевидно, що вони не вирішують проблему неявного малого розміру вибірки, ви не можете створити інформацію з нічого!