Скільки функцій для вибірки за допомогою випадкових лісів


14

Сторінка Вікіпедії, яка цитує "Елементи статистичного навчання", говорить:

Як правило, для завдання класифікації з функцій, p функції використовуються в кожному розділі.p

Я розумію, що це досить гарна освічена здогадка, і це, мабуть, було підтверджено емпіричними свідченнями, але чи є інші причини, чому можна вибрати квадратний корінь? Чи відбувається там статистичне явище?

Чи допомагає це якось зменшити дисперсію помилок?

Це те ж саме для регресії та класифікації?

Відповіді:


17

Я думаю, що в оригінальному документі вони пропонують використовувати ), але в будь-якому випадку ідея така:log2(N+1

Кількість випадково вибраних ознак може впливати на помилку узагальнення двома способами: вибір багатьох особливостей збільшує міцність окремих дерев, тоді як зменшення кількості ознак призводить до зниження кореляції серед дерев, що збільшує міцність лісу в цілому.

Цікаво, що автори випадкових лісів (pdf) знаходять емпіричну різницю між класифікацією та регресією:

Цікавою відмінністю між регресією та класифікацією є те, що кореляція зростає досить повільно у міру збільшення кількості використовуваних ознак.

N/3N

NlogN

Діапазон між проміжками зазвичай великий. У цьому діапазоні зі збільшенням кількості ознак кореляція збільшується, але PE * (дерево) компенсується зменшенням.

(PE * - помилка узагальнення)

Як кажуть у елементах статистичного навчання:

На практиці найкращі значення цих параметрів залежатимуть від проблеми, і їх слід розглядати як параметри настройки.

Одне, від чого може залежати ваша проблема, - це кількість категоричних змінних. Якщо у вас є багато категоричних змінних, кодованих як фіктивні змінні, зазвичай має сенс збільшувати параметр. Знову з статті "Випадкові ліси":

int(log2M+1)


Дякую, це дуже корисна відповідь. Дійсно, я думав, що щось стосується сили кожного дерева проти сили лісу в цілому. І справді, дуже цікаво, що існує така різниця між регресією та класифікацією. Дуже дякую за зв’язування оригінального паперу. Намагався зібрати такі папери для багатьох методик.
Валентин Каломме
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.