Помилка Out of Bag робить резюме непотрібним у випадкових лісах?


15

Я досить новачок у випадкових лісах. У минулому я завжди порівнював точність підгонки проти тесту проти пристосування проти поїзда, щоб виявити будь-який набір. Але я просто прочитав тут таке:

"У випадкових лісах немає необхідності в перехресній валідації або в окремому наборі тесту, щоб отримати неупереджену оцінку помилки набору тестів. Оцінюється внутрішньо, під час виконання ..."

Невеликий абзац, наведений вище, можна знайти в розділі оцінки помилок "out of-bag" (oob) . Ця концепція Out of Bag Error для мене абсолютно нова, і що трохи заплутано - це те, як помилка OOB в моїй моделі становить 35% (або 65% точності), але все ж, якщо я застосую перехресну перевірку до моїх даних (просто простий затримка метод) і порівняйте обидва придатності проти тесту проти пристосування проти поїзда, я отримую 65% точність і 96% точність відповідно. На мій досвід, це вважається надмірним, але OOB має 35% помилки, як і моя помилка придатності проти тесту . Я перестарався? Чи потрібно навіть використовувати перехресну перевірку, щоб перевірити, чи не є пристосування у випадкових лісах?

Коротше кажучи, я не впевнений, чи варто мені довіряти OOB, щоб отримати неупереджену помилку помилки тестового набору, коли мій прилад проти поїзда вказує на те, що я переозброюю!


OOB може використовуватися для визначення гіпер-параметрів. Крім мене, для оцінки продуктивності моделі слід використовувати перехресну перевірку.
Менаріат

@Matemattica, коли ви говорите про гіперпараметри, про що саме ви говорите? Вибачте за мою
невідомість

кількість дерев та особливості, вибрані випадковим чином під час кожної ітерації
Меріат

Я знаю це зовсім інше питання, але як ви визначаєте кількість дерев та вибірку особливостей при кожній ітерації з помилки?
jgozal

1
Можливо, це може допомогти: stats.stackexchange.com/a/112052/78313 Взагалі я ніколи не бачив такої різниці в РФ!
Менаріат

Відповіді:


21
  • помилка тренувань (як і в predict(model, data=train)) зазвичай є марною. Якщо ви не зробите (нестандартну) обрізку дерев, вона не може бути набагато вище 0 при розробці алгоритму . Випадкові ліси використовують агрегацію завантажувальних дерев рішень, які, як відомо, погано підходять. Це як помилка навчання для класифікатора 1-найближчого сусіда.

  • 1е

    Таким чином, помилка поза пакетом не є точно такою ж (менше дерев для агрегування, більше копій навчальних випадків), як помилка перехресної перевірки, але для практичних цілей вона є досить близькою.

  • На що було б сенс звернути увагу, щоб виявити надмірну обробку, порівнюючи помилку, що знаходяться в кошику, та зовнішню перевірку. Однак, якщо ви не знаєте про кластеризацію ваших даних, "проста" помилка перехресної перевірки буде схильна до тих же оптимістичних ухилів, що і помилка в кошику: розбиття здійснюється за дуже схожими принципами.
    Для виявлення цього вам знадобиться порівняти перевірку вантажу чи перехресної перевірки з помилкою.


11

Помилка "out-of-bag" корисна і може замінити інші протоколи оцінки продуктивності (наприклад, перехресне підтвердження), але їх слід використовувати обережно.

Як і крос-валідація, оцінка продуктивності за допомогою зразків з мішків обчислюється за допомогою даних, які не використовувались для вивчення. Якщо дані були оброблені таким чином, що передає інформацію через зразки, оцінка (ймовірно) буде упереджена. Прості приклади, які спадають на думку, - це вибір функції або введення відсутнього значення. В обох випадках (і особливо для вибору функцій) дані перетворюються за допомогою інформації з усього набору даних, змінюючи оцінку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.