Переваги стратифікованої та випадкової вибірки для генерування навчальних даних у класифікації


21

Мені хотілося б знати, чи є якісь / якісь переваги використання стратифікованого вибірки замість випадкової вибірки під час поділу оригінального набору даних на навчальний та тестовий набір для класифікації.

Крім того, чи вводить стратифікований вибірковий отвір більше класифікації в класифікатор, ніж випадковий вибірки

Додаток, для якого я хотів би використовувати стратифіковану вибірку для підготовки даних, є класифікатором випадкових лісів, підготовленим на вихідного набору даних. Перед класифікатором також є етап формування синтетичного зразка (SMOTE [1]), який врівноважує розмір класів.23

[1] Чаула, В. Нітеш та ін. " SMOTE: техніка надмірного відбору проб синтетичних меншин ". Journal of Artificial Intelligence Research 16 (2002): 321-357.

Відповіді:


21

Стратифікована вибірка має на меті розділити набір даних так, щоб кожен поділ був схожий по відношенню до чогось.

У класифікаційній обстановці часто вибирають так, щоб у поїздів і на випробувальних наборах був приблизно такий самий відсоток зразків кожного цільового класу, як і в комплекті.

Як результат, якщо набір даних містить велику кількість кожного класу, стратифікована вибірка майже однакова як випадкова вибірка. Але якщо один клас не так сильно представлений у наборі даних, що може бути у вашому наборі даних, оскільки ви плануєте перепробовувати міноритарний клас, то стратифікована вибірка може призвести до іншого розподілу цільового класу в наборах поїздів та тестів, ніж у випадкових відбір проб може дати результат.

Зауважте, що стратифікована вибірка може також бути спроектована для рівномірного розподілу деяких функцій у наступному поїзді та випробувальних наборах. Наприклад, якщо кожен зразок являє собою одну особу, а одна особливість - вік, іноді корисно мати однаковий віковий розподіл як у поїзді, так і в тестовому наборі.

FYI:

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.