Градієнт, що підсилює дерево проти випадкового лісу


110

Підвищення градієнтного дерева, запропоноване Фрідманом, використовує дерева рішень як базових учнів. Мені цікаво, чи варто робити базове дерево рішень максимально складним (повністю вирощеним) чи простішим? Чи є пояснення щодо вибору?

Випадковий ліс - ще один ансамблевий метод, що використовує дерева рішень як базових учнів. Виходячи з мого розуміння, ми зазвичай використовуємо майже повністю вирощені дерева рішень у кожній ітерації. Маю рацію?


1
Ви можете знайти ще одну дуже хорошу посилання на підсилені дерева тут: xgboost.readthedocs.io/en/latest/model.html
Naghmeh

@Naghmeh - Мертве посилання; Здається, перейшов на xgboost.readthedocs.io/en/latest/tutorials/model.html
mlibby

Відповіді:


149

error = bias + variance

  • Підвищення базується на слабких учнів (висока упередженість, низька дисперсія). З точки зору дерев, що приймають рішення, слабкі учні - це неглибокі дерева, іноді навіть такі маленькі, як пеньки (дерева з двома листками). Підвищення помилок зменшує в основному за рахунок зменшення упередженості (а також певною мірою дисперсії за рахунок агрегування результатів з багатьох моделей).
  • З іншого боку, Random Forest використовує, як ви сказали, повністю вирощені дерева рішень (низький ухил, велика дисперсія). Він вирішує завдання зменшення помилок зворотним способом: зменшуючи дисперсію. Дерева зроблені некорельованими, щоб максимально зменшити дисперсію, але алгоритм не може зменшити зміщення (що трохи вище, ніж ухил окремого дерева в лісі). Звідси необхідність великих дерев, не обрізаних дерев, щоб спохивання спочатку було якомога меншим.

Зверніть увагу, що на відміну від Boosting (який є послідовним), RF паралельно вирощує дерева . Термін, iterativeякий ви використовували, таким чином, є недоречним.


1
"Дерева зроблені некорельованими, щоб максимально зменшити дисперсію, але алгоритм не може зменшити зміщення (що трохи вище, ніж ухил окремого дерева в лісі)" - частина про "трохи вище, ніж ухил окремої людини дерево в лісі "здається неправильним. Див. Web.stanford.edu/~hastie/Papers/ESLII.pdf, розділ 15.4.2: "Як і в забої дерев , ухил випадкового лісу такий же, як ухил будь-якого з окремих відібраних дерев." Можливо, ви маєте на увазі "трохи вище, ніж ухил одного повнозрілого дерева, що підходить до початкових даних"?
Адріан

1
@gung Я думаю, що в ОП є ключове питання без відповіді, а саме: чому б не використовувати повністю вирощене дерево на 1-му кроці ГБМ? Чому використовувати послідовність слабких учнів краще, ніж одне цілком вирощене дерево? Мені цікаво про це
ftxx

55

Це питання вирішено в цій дуже приємній публікації. Будь ласка, подивіться на це та посилання на нього. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

Зауважте в статті, що говорить про калібрування, та посилання на іншу (приємну) публікацію про це. Все-таки я вважаю, що стаття Отримання каліброваних ймовірностей під час підвищення дає змогу краще зрозуміти, що таке калібрування в контексті збільшених класифікаторів і які є стандартними методами його виконання.

І нарешті, один аспект відсутній (трохи більш теоретичний). І RF, і GBM - це ансамблеві методи, тобто ви створюєте класифікатор із великої кількості менших класифікаторів. Тепер принципова відмінність полягає у використаному методі:

  1. РФ використовує дерева рішень, які дуже схильні до надмірного розміщення. Для досягнення більшої точності РФ вирішує створити велику їх кількість на основі мішки . Основна ідея - переупорядкувати дані знову і знову, і для кожного зразка тренуйте новий класифікатор. Різні класифікатори по-різному доповнюють дані, і шляхом голосування ці відмінності усереднюються.
  2. ГБМ - це стимулюючий метод, який базується на слабких класифікаторах . Ідея полягає в тому, щоб заздалегідь додати класифікатор, щоб наступний класифікатор навчався для вдосконалення вже навченого ансамблю. Зауважте, що для РЧ кожна ітерація класифікатора готується незалежно від решти.

3
Чи було б справедливим висновком з вашої відповіді, що РФ перевищує ГБМ?
8форти

4
@ 8forty я б не зробив такого висновку - хоча одне дерево в РФ перевищить більше одного дерева в ГБМ (оскільки їх набагато менше), в РФ ці надлишки будуть усереднені, коли використовується багато дерев, а в ГБМ, чим більше дерев ви додасте, тим вищий ризик переобладнання. Коротше кажучи, як N (кількість використаних дерев) переходить до нескінченності, я очікую, що РФ переповнить набагато менше, ніж GBM
Ant Ant
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.