Я вивчаю різні методи класифікації проекту, над яким я працюю, і мені цікаво спробувати випадкові ліси. Я намагаюся просвітити себе, коли я йду разом, і буду вдячний за будь-яку допомогу, надану спільнотою CV.
Я розділив свої дані на навчальні / тестові набори. Від експериментів зі випадковими лісами в R (використовуючи пакет randomForest) у мене виникли проблеми з високим рівнем помилок для мого меншого класу. Я прочитав цю статтю про ефективність випадкових лісів за незбалансованими даними, і автори представили два методи боротьби з класовим дисбалансом при використанні випадкових лісів.
1. Зважені випадкові ліси
2. Збалансовані випадкові ліси
Пакет R не дозволяє зважувати класи (з форумів довідки R, я прочитав, що параметр classwt не працює належним чином і планується як майбутнє виправлення помилок), тому мені залишається варіант 2. Я можу вказати кількість об'єктів, відібраних у кожному класі для кожної ітерації випадкового лісу.
Мені стає непросто встановити однакові розміри вибірки для випадкових лісів, тому що я відчуваю, що втрачаю надто багато інформації про великий клас, що призводить до низької продуктивності з майбутніми даними. Показники помилкових класифікацій при зменшенні тиражування більшого класу показали поліпшення, але мені було цікаво, чи існують інші способи боротьби з незбалансованими розмірами класів у випадкових лісах?