RandomForestClassifier проти ExtraTreesClassifier у scikit learn

Question 1

Хто-небудь може пояснити різницю між RandomForestClassifier та ExtraTreesClassifier у scikit learn. Я витратив чимало часу на читання газет:

П. Гертс, Д. Ернст. Та Л. Вегенкель, “Надзвичайно рандомізовані дерева”, Машинне навчання, 63 (1), 3-42, 2006

Здається, це різниця для ET:

1) При виборі змінних під час поділу вибірки відбираються з усього навчального набору, а не зразка завантажувального набору навчального набору.

2) Розбиття вибираються повністю випадковим чином із діапазону значень у вибірці при кожному розбитті.

Результатом цих двох речей є набагато більше «листя».

Question 2

Так, обидва висновки є правильними, хоча реалізація випадкового лісу в scikit-learn дає можливість увімкнути або вимкнути передискретизацію початкового завантаження.

На практиці RF часто є більш компактними, ніж ET. Як правило, ЕТ дешевше навчати з обчислювальної точки зору, але можуть зростати набагато більше. Іноді ET можуть узагальнити краще, ніж RF, але важко здогадатися, коли це так, не спробувавши спочатку (і налаштування n_estimators, max_featuresі min_samples_splitперехресний перевірений пошук сітки).

Question 3

Класифікатор ExtraTrees завжди тестує випадкові розбиття на частку об’єктів (на відміну від RandomForest, який перевіряє всі можливі розбиття на частку об’єктів)

Question 4

Основна відмінність між випадковими лісами та зайвими деревами (зазвичай їх називають екстремальними випадковими лісами) полягає в тому, що замість обчислення локально оптимальної комбінації ознак / розбиття (для випадкового лісу) для кожної ознаки, що розглядається, вибирається випадкове значення для розколу (для зайвих дерев). Ось хороший ресурс, щоб дізнатись більше про їх різницю більш детально Випадковий ліс проти зайвого дерева.