Перебіг з категоричними змінними


9

Мені хотілося б виконати комбінацію пересимплінгу та недооцінки, щоб збалансувати мій набір даних із приблизно 4000 клієнтами, розділеними на дві групи, де одна з груп становить приблизно 15%.

Я вивчив SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) та ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), але обидва вони створюють нові синтетичні зразки, використовуючи існуючі спостереження та, наприклад, kNN.

Однак, оскільки багато атрибутів, пов'язаних із клієнтами, є категоричними, я не думаю, що це правильний шлях. Наприклад, багато моїх змінних, таких як Region_A та Region_B взаємно виключають, але, використовуючи kNN, нові спостереження можуть бути розміщені як у регіоні_A, так і у регіоні_B. Чи згодні ви, що це питання?

У такому випадку - як можна виконати надсимплінг у R, просто дублюючи існуючі спостереження? Або це неправильний спосіб зробити це?


Навіщо вам підсистематизація, якщо у вас всього 4000 спостережень?
kjetil b halvorsen

Я хочу збалансувати свій набір даних, щоб мати приблизно рівну частку класів. Якщо я буду використовувати свої дані як зараз, то моделі просто передбачать усі спостереження як мажоритарний клас.
пір

Відповіді:


8

ROSE та SMOTE розроблені для обробки категоричних змінних, тому, якщо ваші категоричні змінні не виражені у двійковому форматі, вам зазвичай не слід турбуватися про присвоєння синтетичним спостереженням взаємовиключних категоричних ознак. Якщо вони є, ви завжди можете їх реструктурувати як фактори.

У вашому прикладі з двома регіонами ви створили б нову змінну регіону з двома рівнями "A" і "B". Ваші записи приймають відповідні значення, посилаючись на ваші початкові стовпці.

Тепер, якщо ви перебуваєте в ситуації, коли ваші нові синтетичні спостереження можуть генерувати суперечливі категорії, оскільки вони поширюються на декілька, інакше не пов'язаних між собою змінних (наприклад, синтетичний Observation.isPig = 1 та синтетичний Observation.hasWings = 1), ви завжди можете виконати кілька додаткових даних обміну даними перш ніж робити оцінку моделі, щоб очистити такі відхилення.

Крім того, оскільки у вас є близько 600 спостережень за подіями у вашому наборі даних, можливо, врахуйте потенційні переваги використання синтетичних спостережень, отриманих за допомогою підкреслення мажоритарного класу?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.