Чому мішковане / випадкове лісове дерево має більший ухил, ніж одне дерево рішень?


11

Якщо ми розглянемо повне вирощене дерево рішень (тобто дерево без рішення), воно має велику дисперсію та низький ухил.

Баггінг та випадкові ліси використовують ці моделі з високою дисперсією та агрегують їх, щоб зменшити дисперсію та, таким чином, підвищити точність прогнозування. І Baging, і випадкові ліси використовують вибірку Bootstrap, і як описано в «Елементах статистичного навчання», це збільшує упередженість в одному дереві.

Крім того, оскільки метод Random Forest обмежує дозволені змінні поділу на кожен вузол, зміщення для одного випадкового лісового дерева збільшується ще більше.

Таким чином, точність прогнозування лише збільшується, якщо збільшення зміщення поодиноких дерев у Багги та Довільних Лісах не «затьмарить» зменшення дисперсії.

Це призводить мене до двох наступних питань: 1) Я знаю, що при вибірці завантажувальної програми ми (майже завжди) матимемо однакові спостереження у вибірці завантажувальної програми. Але чому це призводить до збільшення упередженості окремих дерев у Багги / Випадкових Лісах? 2) Крім того, чому обмеження наявних змінних на поділ у кожному розрізі призводить до більшого зміщення окремих дерев у випадкових лісах?

Відповіді:


5

Я прийму відповідь 1) від Куньлуна, але просто для закриття цієї справи я наведу висновки з двох питань, до яких я дійшов у своїй дисертації (які обидва були прийняті моїм науковим керівником):

1) Більше даних дає кращі моделі, і оскільки ми використовуємо лише частину всіх навчальних даних для тренування моделі (завантажувальна машина), у кожному дереві виникає вища зміщення (Скопіюйте з відповіді від Kunlun)

2) В алгоритмі "Випадкові ліси" ми обмежуємо кількість змінних для поділу в кожному розділі, тобто обмежуємо кількість змінних, щоб пояснити наші дані. Знову ж таки, у кожного дерева спостерігається більш високий ухил.

Висновок: Обидві ситуації є питанням обмеження наших можливостей пояснити сукупність: Спочатку ми обмежуємо кількість спостережень, потім обмежуємо кількість змінних, щоб поділити їх у кожному розрізі. Обидва обмеження призводять до більшого зміщення у кожному дереві, але часто зменшення дисперсії в моделі перекриває збільшення зміщення у кожному дереві, і, таким чином, Baging і Random Forests мають тенденцію створювати кращу модель, ніж просто одне дерево рішень.


-1

Ваші запитання досить прості. 1) Більше даних дає кращу модель, оскільки ви використовуєте лише частину цілих навчальних даних для тренування вашої моделі (завантажувальний тренер), більш високий ухил є розумним. 2) Більше розщеплення означає глибші дерева або чистіші вузли. Зазвичай це призводить до великої дисперсії та низького зміщення. Якщо ви обмежуєте розбиття, менша дисперсія та більший ухил.


4
Я не дуже купую аргумент за 1), оскільки кожен зразок завантажувальної програми є однаковою мірою, і упередженість стосується поведінки середньої моделі. Здається, він повинен бути більш тонким, ніж це. Я також не думаю 2) звертається до поставленого питання. Плакат не означає "обмежувати розколи", як у "вирощувати дрібніші дерева".
Метью Друрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.