Мотивація за кроками випадкових лісових алгоритмів

Метод, який я знайомий для побудови випадкового лісу, полягає в наступному: (від http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm )

Щоб побудувати дерево в лісі:

Завантажте зразок розміру N, де N - розмір нашого навчального набору. Використовуйте цей зразок завантаження як навчальний набір для цього дерева.
На кожному вузлі дерева випадковим чином виберіть m наших M ознак. Виберіть найкращі з цих м функцій, на які слід поділитись. (де m - параметр нашого випадкового лісу)
Вирощуйте кожне дерево якомога більше - тобто відсутність обрізки.

Хоча цей алгоритм має сенс на процедурному рівні і, безумовно, дає хороші результати, мені не ясно, що теоретична мотивація стоїть за кроками 1, 2 і 3. Чи може хтось пояснити, що когось мотивувало придумати цю процедуру і чому це працює так добре?

Наприклад: навіщо нам виконувати крок 1? Це не здається, що ми завантажуємо його за звичайною метою зменшення дисперсії.

machine-learning classification random-forest

— tSchema
джерело

Методи ансамблю (наприклад, випадкові ліси) вимагають певного елемента змін у наборах даних, на яких вирощуються окремі базові класифікатори (інакше випадкові ліси в кінцевому підсумку мають ліс дерев, які занадто схожі). Оскільки дерева рішень дуже чутливі до спостережень у навчальному наборі, зміна спостережень (використовуючи завантажувальний тренажер) була, гадаю, природним підходом до отримання необхідної різноманітності. Очевидною альтернативою є варіювання функцій, які використовуються, наприклад, тренування кожного дерева на підмножині оригінальних функцій. Використання зразків завантажувальної машини також дозволяє оцінити рівень помилок і мінливого значення помилок.

2, по суті, є ще одним способом введення випадковості в ліс. Це також впливає на зменшення співвідношення дерев (за допомогою низького значення мтри), при цьому компроміс (потенційно) погіршує прогнозовану потужність. Використання занадто великого значення mtry призведе до того, що дерева ставатимуть все більш схожими одне на одного (і в крайньому випадку ви закінчите палити)

Я вважаю, що причина не обрізки пов’язана більше з тим, що це не потрібно, ніж будь-що інше. За допомогою єдиного дерева рішень ви, як правило, обрізаєте його, оскільки це дуже сприйнятливе до надмірного розміщення. Однак, використовуючи зразки завантажувальної машини та вирощування багатьох дерев, випадкові ліси можуть вирощувати дерева, які є індивідуально сильними, але не особливо взаємозв’язаними між собою. В основному, окремі дерева є надмірними, але за умови, що їх помилки не співвідносяться, ліс повинен бути досить точним.

Причина, по якій це добре працює, схожа на теорему присяжних Кондорсе (та логіку таких методів, як підвищення). В основному у вас є багато слабких учнів, яким потрібно лише краще, ніж випадкові здогадки. Якщо це правда, ви можете продовжувати додавати слабких учнів, і в межах цього ви отримаєте ідеальні прогнози від свого ансамблю. Очевидно, що це обмежено через те, що помилки учнів стають співвіднесеними, що перешкоджає покращенню роботи ансамблю.

— SimonCB765
джерело

Приємна відповідь, і асоціація з теоремою присяжних Кондорсе має сенс. Формально, хоча, це добре працює - через нерівність Дженсена!

— JEquihua