RandomForestClassifier проти ExtraTreesClassifier у scikit learn


94

Хто-небудь може пояснити різницю між RandomForestClassifier та ExtraTreesClassifier у scikit learn. Я витратив чимало часу на читання газет:

П. Гертс, Д. Ернст. Та Л. Вегенкель, “Надзвичайно рандомізовані дерева”, Машинне навчання, 63 (1), 3-42, 2006

Здається, це різниця для ET:

1) При виборі змінних під час поділу вибірки відбираються з усього навчального набору, а не зразка завантажувального набору навчального набору.

2) Розбиття вибираються повністю випадковим чином із діапазону значень у вибірці при кожному розбитті.

Результатом цих двох речей є набагато більше «листя».


6
Причина, по якій я так зацікавлений у класифікаторі extratree, полягає в тому, що я отримую набагато кращі результати з ЕТ з певної проблеми. Мій вектор функцій великий> 200 змінних, і змінні дуже шумні. Стандартний класифікатор RDF отримує кепські результати, але ET отримує показники F1> 90%. Класи не збалансовані, порівняно мало позитивних зразків класів та багато негативів.
Денсон

Дивіться також цю останню відповідь: stats.stackexchange.com/questions/175523/…
Арчі,

Відповіді:


56

Так, обидва висновки є правильними, хоча реалізація випадкового лісу в scikit-learn дає можливість увімкнути або вимкнути передискретизацію початкового завантаження.

На практиці RF часто є більш компактними, ніж ET. Як правило, ЕТ дешевше навчати з обчислювальної точки зору, але можуть зростати набагато більше. Іноді ET можуть узагальнити краще, ніж RF, але важко здогадатися, коли це так, не спробувавши спочатку (і налаштування n_estimators, max_featuresі min_samples_splitперехресний перевірений пошук сітки).


21

Класифікатор ExtraTrees завжди тестує випадкові розбиття на частку об’єктів (на відміну від RandomForest, який перевіряє всі можливі розбиття на частку об’єктів)


13
Мене розважає, що цей коментар буквально є
Боб,

Так @ Боб це. Я вважаю цю відповідь дуже корисною, тому я розмістив її тут, вона допомагає іншим зрозуміти різницю між зайвим деревом та випадковим лісом.
Мухаммед Умар Аманат,

3
також походив з того ж курсу. і ця відповідь була корисною!
killezio

так @ skeller88 це дивовижний курс. Ви також повинні заглянути на цей coursera.org/learn/competitive-data-science?specialization=aml
Мухаммад Умар Аманат

0

Основна відмінність між випадковими лісами та зайвими деревами (зазвичай їх називають екстремальними випадковими лісами) полягає в тому, що замість обчислення локально оптимальної комбінації ознак / розбиття (для випадкового лісу) для кожної ознаки, що розглядається, вибирається випадкове значення для розколу (для зайвих дерев). Ось хороший ресурс, щоб дізнатись більше про їх різницю більш детально Випадковий ліс проти зайвого дерева.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.