Мені хотілося б виконати комбінацію пересимплінгу та недооцінки, щоб збалансувати мій набір даних із приблизно 4000 клієнтами, розділеними на дві групи, де одна з груп становить приблизно 15%.
Я вивчив SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) та ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), але обидва вони створюють нові синтетичні зразки, використовуючи існуючі спостереження та, наприклад, kNN.
Однак, оскільки багато атрибутів, пов'язаних із клієнтами, є категоричними, я не думаю, що це правильний шлях. Наприклад, багато моїх змінних, таких як Region_A та Region_B взаємно виключають, але, використовуючи kNN, нові спостереження можуть бути розміщені як у регіоні_A, так і у регіоні_B. Чи згодні ви, що це питання?
У такому випадку - як можна виконати надсимплінг у R, просто дублюючи існуючі спостереження? Або це неправильний спосіб зробити це?