Створення незбалансованого набору даних

Я хотів би, щоб моя навчена модель була протестована на незбалансованому наборі даних. Чи є алгоритми для створення синтетичних даних із збалансованого міченого набору даних (спам / не-спам)?

unbalanced-classes synthetic-data

— Стюарт Петерсон
джерело

Ви завжди можете врівноважити будь-який набір даних, просто підкресливши один клас.

— user2974951

Спробуйте SMOTE , його алгоритм, який використовується для надмірного вибірки. Він створює синтетичні зразки з класу, який ви хочете перепробовувати.

Ви можете використовувати це для створення будь-якої кількості потрібних зразків.

— Мері93
джерело

Чи можна використовувати SMOTE і для недостатнього відбору проб?

— Стюарт Петерсон

Що ж, ви можете отримати підкресленість класу A, перенавантаживши клас notA ...

— kjetil b halvorsen

@StuartPeterson Ні, SMOTE є алгоритмом надмірної вибірки, але існує багато інших алгоритмів

— недостатньої