Яку міру помилки в навчанні повідомити про випадкові ліси?


16

Наразі я підганяю випадкові ліси для проблеми класифікації, використовуючи randomForestпакунок на R, і не знаю, як повідомити про помилку навчання для цих моделей.

Моя помилка тренінгу близька до 0%, коли я обчислюю її за допомогою передбачень, які я отримую за допомогою команди:

predict(model, data=X_train)

де X_trainдані про навчання.

Відповідаючи на відповідне запитання , я прочитав, що слід використовувати помилку тренувань поза мішком (OOB) як метрику помилок навчання для випадкових лісів. Ця кількість обчислюється з прогнозів, отриманих за допомогою команди:

predict(model)

У цьому випадку помилка навчання OOB набагато ближче до середньої помилки тесту 10-CV, яка становить 11%.

Я задаюся питанням:

  1. Чи прийнято повідомляти про помилку навчання OOB як міру помилки навчання для випадкових лісів?

  2. Чи правда, що традиційний показник помилки тренувань штучно низький?

  3. Якщо традиційна міра помилки в навчанні штучно низька, то які два заходи я можу порівняти, щоб перевірити, чи є РФ надмірним?

Відповіді:


11

Щоб додати відповідь @Soren H. Welling.

1. Чи прийнято повідомляти про помилку навчання OOB як міру помилки навчання для випадкових лісів?

Ні. Помилка OOB на підготовленій моделі не є такою ж, як помилка тренувань. Однак він може слугувати мірою точності прогнозування.

2. Чи правда, що традиційна міра помилок у навчанні штучно низька?

Це справедливо, якщо ми запускаємо проблему класифікації з використанням параметрів за замовчуванням. Точний процес описаний у дописі на форумі Енді Ліау , який підтримує randomForestпакет в R, таким чином:

Здебільшого виступ на тренувальному наборі безглуздий. (Це стосується більшості алгоритмів, але особливо це стосується РФ.) У налаштуваннях за замовчуванням (і рекомендованим) дерева вирощуються до максимального розміру, а це означає, що в більшості термінальних вузлів цілком ймовірно, що існує лише одна точка даних, і прогнозування в кінцевих вузлах визначається класом більшості в вузлі або точкою самотніх даних. Припустимо, це так постійно; тобто у всіх деревах всі кінцеві вузли мають лише одну точку даних. Конкретна точка даних була б "в ящику" приблизно у 64% дерев у лісі, і кожне з цих дерев має правильний прогноз для цього пункту даних. Навіть якщо всі дерева, де ці точки даних є поза мешком, дали неправильний прогноз, більшістю голосів усіх дерев, ви все одно отримаєте правильну відповідь врешті-решт. Таким чином, в основному ідеальне передбачення поїздів для РФ - це "задумом".

nodesize > 1sampsize < 0.5N(хi,уi)

3. Якщо традиційна міра помилок у навчанні штучно низька, то які два заходи я можу порівняти, щоб перевірити, чи є РФ надмірним?

Якщо ми запускаємо RF з nodesize = 1і sampsize > 0.5, то помилка тренування ВЧ завжди буде близько 0. У цьому випадку єдиний спосіб сказати, чи є модель переозброєною - це зберігати деякі дані як незалежний набір перевірки. Потім ми можемо порівняти помилку тесту 10-CV (або помилку тесту OOB) з помилкою незалежного набору перевірки. Якщо похибка тесту 10-CV значно нижча, ніж помилка незалежного набору перевірки, то модель може бути надмірно придатною.


2

[відредаговано 21.7.15 8:31 за CEST]

Я думаю, ви використовували RF для класифікації. Тому що в цьому випадку алгоритм виробляє повністю вирощені дерева з чистими кінцевими вузлами лише одного цільового класу.

predict(model, data=X_train)

Ця лінія кодування подібна до того, як собака переслідує [~ 66%] власного хвоста. Прогнозування будь-якого зразка тренувань - це клас самого навчального зразка. Для регресії РФ зупиняється, якщо в вузлі є 5 або менше зразків або якщо вузол чистий. Тут похибка прогнозування буде невеликою, але не 0%.

У машинному навчанні ми часто працюємо з великими просторами гіпотез. Це означає, що у структурі даних нашого навчального набору завжди буде багато фальсифікованих гіпотез / пояснень / моделей. У класичній статистиці простір гіпотез часто малий, тому пряма придатність моделі є інформативною відповідно до деякої припущеної теорії ймовірностей. При машинному навчанні пряма невідповідність стосується упередженості моделі. Зміщення - це «негнучкість» моделі. Це неу будь-якому разі забезпечують наближення потужності узагальнення (здатність передбачати нові події). Для алгоритмічних моделей крос-валідація є найкращим інструментом для наближення потужності узагальнення, оскільки не формулюється жодна теорія. Однак, якщо припущення щодо незалежного відбору зразків моделі не вдається, модель може взагалі бути марною, навіть якщо добре проведена перехресна перевірка запропонувала інше. Зрештою, найсильнішим доказом є задоволення передбачення кількості зовнішніх тестових наборів різного походження.

Назад до резюме: Позашляховик часто є загальноприйнятим типом резюме. Я особисто вважаю, що OOB-CV дає подібні результати, як і 5-кратний, але це дуже маленька неприємність. Якщо порівняти, скажімо, RF з SVM, то OOB-CV не є корисним, як ми зазвичай уникаємо пакетувати SVM. Натомість і SVM, і RF будуть вбудовані в абсолютно таку ж схему перехресної перевірки, наприклад, 10-кратні 10-повторення з відповідними розділами для кожного повтору. Будь-які особливості проектування особливо часто також потребують перехресної перевірки. Якщо для того, щоб все було в чистоті, весь реєстр даних може бути вбудований у резюме.

Якщо ви налаштуєте свою модель за допомогою тестового набору (або перехресної перевірки), ви знову завищуєте свій простір гіпотез, і перевірена ефективність прогнозування, ймовірно, занадто оптимістична. Натомість вам знадобиться набір калібрування (або калібрувальний цикл CV) для налаштування та тестовий набір перевірки (або цикл перевірки CV) для оцінки остаточної оптимальної моделі.

У крайньому сенсі, оцінка вашої перевірки буде неупередженою лише у тому випадку, якщо ви ніколи не будете діяти на цей результат, коли побачите його. Це парадокс валідації, бо чому б ми отримали знання, які є істинними лише тоді, коли ви не будете діяти на ньому. На практиці громада охоче приймає певні упередження щодо публікацій, де ті дослідники, які випадково отримали надто оптимістичну валідацію, більше схильні до публікації, ніж ті, хто, на жаль, не надто песимістичний. Тому іноді чому не можна відтворити інші моделі.


Дякую за це. Два питання: (1) Як прогнозування будь-якої вибірки тренінгу є класом навчальної вибірки? Повинні бути дерева, які не використовують зразок навчання, який використовується у процедурі більшості голосів? (2) Отже, як би ви оцінили, чи є міра РФ надмірною?
Берк У.

(1) ну так, я трохи швидкий там, я відредагував відповідь. Будь-який зразок зберігатиметься в ~ 66% дерев. Якщо зразок на дереві потрапив в тренд під час тренування, він виявиться в тому ж самому вузлі під час прогнозування в ~ 66%, і цього достатньо, щоб кожного разу виграти більшість голосів. Підтвердьте це, зменшивши розміри зразків, наприклад, до 30% проб поїздів, і помітите зростання від 0% помилки класифікації. (2) Я думаю, що я відповів на це. RF сама по собі не надмірна, але ви можете створити контекст під час, наприклад, налаштування, де ви отримаєте надоптимістичний результат OOB-CV. Вставте весь ваш процес у нове резюме, щоб точно знати.
Сорен Хавелунд Веллінг
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.