вам потрібно мати справу з дисбалансом класу, якщо / тому, що робить вашу модель кращою (за невидимими даними). "Краще" - це те, що ти повинен визначити сам. Це може бути точність, це може бути вартість, це може бути справжня позитивна ставка тощо.
Є тонкий нюанс, який важливо зрозуміти, коли говорити про класовий дисбаланс. А саме, чи не збалансовані ваші дані через:
- розподіл даних сам по собі є незбалансованим
В деяких випадках один клас зустрічається набагато більше, ніж інший. І це добре. У цьому випадку ви повинні подивитися, чи певні помилки дорожчі за інші. Це типовий приклад виявлення смертельних захворювань у пацієнтів, з'ясування того, чи є хтось терористом тощо. Це повертається до короткої відповіді. Якщо деякі помилки коштують дорожче за інші, ви захочете їх "покарати", надавши їм більшу вартість. Тому краща модель матиме меншу вартість. Якщо всі помилки є такими ж поганими, то немає жодної реальної причини, чому ви повинні використовувати чутливі до витрат моделі.
Важливо також зазначити, що використання чутливих до витрат моделей не характерне для незбалансованих наборів даних. Ви можете використовувати такі моделі, якщо ваші дані також добре збалансовані.
- він не представляє справжнього розподілу даних
Іноді ваші дані є "незбалансованими", оскільки вони не представляють справжнього розподілу даних. У цьому випадку ви повинні бути обережними, оскільки у вас є "занадто багато" прикладів одного класу і "занадто мало" іншого, і, отже, вам потрібно переконатися, що ваша модель не переоцінює / недоотримує одну цих класів.
Це відрізняється від використання витрат, оскільки, можливо, одна помилка не є гіршою, ніж інша. Що трапиться, це те, що ви будете упереджені, і це не вигідно для вашої моделі, якщо невидимі дані не мають такого ж розподілу, як дані, на яких ви навчалися.
Скажімо, я даю вам дані тренувань, і ваша мета - здогадатися, чи щось червоне чи синє. Якщо ви помилитесь синім для червоного чи червоним для синього, це не має великого значення. У ваших даних про навчання є 90% червоних випадків, коли в реальному житті вони трапляються лише 10% часу. Вам потрібно буде з цим розібратися, щоб покращити вашу модель.