Інтуїтивне міркування було пояснено в пості:
Якщо наша мета - передбачення, це викличе певну упередженість. І що ще гірше, це буде постійний ухил, в тому сенсі, що ми не будемо мати послідовних оцінок по мірі зростання кількості вибірки.
Отже, можливо, проблема (штучно) збалансованих даних є гіршою, ніж у незбалансованому випадку.
Збалансовані дані корисні для класифікації, але ви, очевидно, втрачаєте інформацію про частоти появи, що вплине на самі показники точності, а також на продуктивність виробництва.
Скажімо, ви розпізнаєте рукописні букви з англійського алфавіту (26 літер). Перебалансування кожного вигляду літер дасть кожній букві ймовірність бути класифікованим (правильно чи ні) приблизно 1/26, тому класифікатор забуде про фактичний розподіл літер у вихідному зразку. І це нормально, коли класифікатор може з високою точністю узагальнити та розпізнати кожну букву .
Але якщо точність і найголовніше узагальнення не "настільки висока" (я не можу дати вам визначення - ви можете вважати це лише як "найгірший випадок") - неправильно класифіковані бали, швидше за все, однаково розподіляться між усіма літерами , щось на зразок:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
На відміну від балансування (якщо припустити, що "A" і "C" мають набагато більші ймовірності появи в тексті)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Тож часті випадки отримають меншу кількість класифікацій. Добре це чи ні, залежить від вашого завдання. Для природного розпізнавання тексту можна стверджувати, що літери з більш високими частотами є більш життєздатними, оскільки вони б зберегли семантику оригінального тексту, наблизивши завдання розпізнавання до прогнозування (де семантика представляє тенденції ). Але якщо ви намагаєтесь розпізнати щось на зразок скріншота ключа ECDSA (більше ентропії -> менший прогноз) - збереження незбалансованих даних не допоможе. Отже, знову ж таки, це залежить.
Найголовніше відмінність полягає в тому, що оцінка точності сама по собі стає упередженою (як ви бачите на прикладі збалансованого алфавіту), тому ви не знаєте, як на поведінку моделі впливають найбільш рідкісні або найчастіші точки.
PS Ви завжди можете відстежувати продуктивність незбалансованої класифікації за допомогою метрики Precision / Recall спочатку і вирішувати, потрібно додавати балансування чи ні.
p(xi|θ)p(xi|θ^)θ^i−θi, іноді рекомендується перебалансувати класи відповідно до самої сукупності або параметрів, відомих з більшого зразка (таким чином, кращий оцінювач). Однак на практиці немає гарантії того, що "більший зразок" розподіляється однаково через ризик отримання упереджених даних на кожному кроці (скажімо, англійські букви, зібрані з технічної літератури проти художньої літератури проти всієї бібліотеки), тому балансування все ще може бути шкідливим.
Ця відповідь повинна також уточнити критерії застосовності для збалансування:
Проблема класового дисбалансу викликана тим, що недостатньо шаблонів, що належать до класу меншин, не співвідношенням позитивних і негативних зразків. Як правило, якщо у вас є достатня кількість даних, "проблема дисбалансу класів" не виникає
Як висновок, штучне балансування рідко буває корисним, якщо навчальний набір достатньо великий. Відсутність статистичних даних у більшій ідентично розподіленій вибірці також говорить про відсутність необхідності у штучному врівноваженні (особливо для прогнозування), інакше якість оцінювача настільки ж хороша, як "ймовірність зустріти динозавра":
Яка ймовірність зустріти динозавра на вулиці?
1/2 ви або зустрічаєте динозавра, або не зустрічаєте динозавра