Які повинні бути оптимальні параметри для класифікатора випадкових лісів?


14

В даний час я використовую RF інструментарій на MATLAB для проблеми бінарної класифікації

Набір даних: 50000 зразків та понад 250 функцій

Отже, якою має бути кількість дерев та випадково обрана функція на кожному розрізі, щоб виростити дерева? може будь-який інший параметр сильно впливає на результати?

Відповіді:


8

Виберіть велику кількість дерев, скажімо, 100. З того, що я прочитав в Інтернеті, виберіть 250 випадково вибрані функції. Однак в оригінальній статті Брейман використовував приблизно найближче ціле число до журналМжурнал2 .

Я б сказав, що перехресне підтвердження зазвичай є ключем до пошуку оптимальних параметрів, але я не знаю достатньо випадкових лісів.


Брейман використовував функції. Я залишаю тут коментар, тому що ваше посилання не працює :)1+журнал2М
Антуан

Дякую, я оновив посилання. Тепер, це прямо до Берклі.
Вок

12

Кількість дерев чим більша, тим краще. Ви майже не можете перекрити цей параметр, але, звичайно, верхня межа залежить від обчислювального часу, який ви хочете витратити на РФ.
Хороша ідея - спершу зробити довгий ліс, а потім побачити (я сподіваюся, що це є в реалізації MATLAB), коли точність OOB сходиться.

Кількість випробуваних атрибутів за замовчуванням - це квадратний корінь від усієї кількості атрибутів, проте зазвичай ліс не дуже чутливий до значення цього параметра - адже він дуже рідко оптимізується, тим більше, що стохастичний аспект РФ може вносити більші зміни.


7

Кількість дерев чим більша, тим краще: погоджено.

Кількість випробуваних атрибутів буде залежати. Якщо у вас вже є апріорі про те, як розповсюджується інформація чи немає серед функцій. Якщо інформація поділяється багатьма функціями, кращі результати мали б отримати менше значення цього параметра. Хоча, з іншого боку, якщо інформація містить лише кілька функцій, вам слід використовувати великі значення. Іншими словами, з багатьма відповідними змінними: менші значення кращі та з багатьма неактуальними змінними: більші значення кращі.


1
Хоча ваше твердження щодо кількості перевірених атрибутів має сенс, у вас є цитування на це?
Джеймс Оверс

Я рекомендую прочитати цю тезу: github.com/glouppe/phd-thesis , а також цю: orbi.ulg.ac.be/handle/2268/25737
0asa
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.