У мене є інформація з інформатики, але я намагаюся навчити себе даним, вирішуючи проблеми в Інтернеті.
Я працюю над цією проблемою останні кілька тижнів (приблизно 900 рядків і 10 функцій). Спочатку я використовував логістичну регресію, але тепер перейшов на випадкові ліси. Коли я запускаю свою випадкову лісову модель за моїми навчальними даними, я отримую дійсно високі значення для аук (> 99%). Однак, коли я запускаю ту саму модель за тестовими даними, результати не такі хороші (Точність приблизно 77%). Це приводить мене до думки, що я перестала відповідати навчальним даним.
Які найкращі практики щодо запобігання надмірному розміщенню у випадкових лісах?
Я використовую r і rstudio як своє середовище розробки. Я використовую randomForest
пакет і прийняв за замовчуванням всі параметри