Моє запитання: Чому випадковий ліс розглядає випадкові підмножини ознак для розщеплення на рівні вузла в межах кожного дерева, а не на рівні дерева ?
Передумови: Це щось із питань історії. Тін Кам Хо опублікував цю статтю про будівництво «рішення лісу» шляхом випадкового вибору підмножини функцій для використання для вирощування кожного дерева в 1998 р Кілька років по тому, в 2001 році Лео Брейман опублікував свою основну Random Forest папір , в якій функція підмножина є випадковим вибирається в кожному вузлі в межах кожного дерева, а не в кожному дереві. Поки Брейман цитував Хо, він не пояснював конкретно перехід від рівня дерев до вибору випадкових ознак на рівні вузла.
Мені цікаво, що конкретно мотивувало цей розвиток. Здається, що вибір підмножини функцій на рівні дерева все одно забезпечить бажану декорреляцію дерев.
Моя теорія: я не бачив цього сформульованого в іншому місці, але, схоже, метод випадкового підпростору був би менш ефективним з точки зору отримання оцінок важливості функції. Для отримання оцінок змінної важливості для кожного дерева ознаки переводяться випадковим чином, одна за одною, і записується збільшення неправильної класифікації або збільшення помилок для спостережень поза мешком. Змінні, для яких неправильна класифікація або збільшення помилок внаслідок цієї випадкової перестановки є високими, - це найбільші значення.
Якщо ми використовуємо метод випадкового підпростору, для кожного дерева ми розглядаємо лише ознак . Може знадобитися кілька дерев, щоб розглянути всі передбачувачі навіть один раз. З іншого боку, якщо ми розглянемо інше підмножина з є в кожному вузлі , ми розглянемо кожну ознаку більше разів після того, як менша кількість дерев, що дає нам більш надійну оцінку художнього значення.
Що я розглянув досі: Поки я прочитав статтю Бреймана та роботу Хо і провів широкий інтернет-пошук порівнянь методів, не знайшовши остаточної відповіді. Зауважимо, що подібне питання задавали і раніше. Це питання йде трохи далі, включаючи мою міркування / роботу над можливим рішенням. Мені будуть цікаві будь-які відповіді, відповідні цитати чи симуляційні дослідження, що порівнюють два підходи. Якщо жодного з них не буде, я планую запустити власне моделювання, порівнявши два методи.