Створення незбалансованого набору даних


11

Я хотів би, щоб моя навчена модель була протестована на незбалансованому наборі даних. Чи є алгоритми для створення синтетичних даних із збалансованого міченого набору даних (спам / не-спам)?


Ви завжди можете врівноважити будь-який набір даних, просто підкресливши один клас.
user2974951

Відповіді:


8

Спробуйте SMOTE , його алгоритм, який використовується для надмірного вибірки. Він створює синтетичні зразки з класу, який ви хочете перепробовувати.

Ви можете використовувати це для створення будь-якої кількості потрібних зразків.


1
Чи можна використовувати SMOTE і для недостатнього відбору проб?
Стюарт Петерсон

Що ж, ви можете отримати підкресленість класу A, перенавантаживши клас notA ...
kjetil b halvorsen

3
@StuartPeterson Ні, SMOTE є алгоритмом надмірної вибірки, але існує багато інших алгоритмів
недостатньої
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.