Чи потребує моделювання з випадковими лісами перехресне підтвердження?


10

Наскільки я бачив, думки щодо цього зазвичай відрізняються. Найкраща практика, безумовно, диктує використання перехресної перевірки (особливо якщо порівнювати радіочастотні сигнали з іншими алгоритмами на тому ж наборі даних). З іншого боку, першоджерело зазначає, що обчислюється похибка OOB під час навчання моделі є достатньою для показника продуктивності тестового набору. Навіть Тревор Хасті в порівняно недавніх переговорах говорить, що "Випадкові ліси забезпечують безкоштовну перехресну перевірку". Інтуїтивно це має сенс для мене, якщо ви навчаєтесь і намагаєтесь покращити модель на основі РФ на одному наборі даних.

Яка ваша думка з цього приводу?


3
це не стосується основної суті питання - але ви все одно хочете перекреслити вторинні параметри (наприклад, глибина дерев тощо)
Wouter

Ви можете використовувати RF або порівнювати його з іншими підходами щодо продуктивності на тренувальному наборі або використовувати незалежні / підмножини даних для перевірки результативності. Це питання вашої гіпотези: чи намагаєтесь ви узагальнити результати для більшої сукупності чи просто класифікувати наявні дані, а не властивість РФ.
katya

Відповіді:


3

Похибка OOB обчислюється за кожним спостереженням, використовуючи лише дерева, які не мали цього спостереження у своєму зразку завантаження; див. це пов'язане питання . Це дуже приблизно еквівалентно двократній перехресній валідації, оскільки ймовірність того, що конкретне спостереження знаходиться у певному зразку завантажувального пристрою, становить .1(11N)N1e10.6

Як зазначає @Wouter, ви, ймовірно, захочете зробити перехресну перевірку налаштування параметрів, але, як оцінка помилки тестового набору, помилка OOB повинна бути хорошою.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.