Різниця між випадковим лісом і надзвичайно рандомізованими деревами


40

Я зрозумів, що випадкові ліси та надзвичайно рандомізовані дерева відрізняються тим, що розщеплення дерев у Випадковому лісі є детермінованими, тоді як вони є випадковими у випадку надзвичайно рандомізованих дерев (якщо бути точнішим, наступний розкол - найкращий розкол серед випадкових рівномірних розщеплень у вибраних змінних для поточного дерева). Але я не повністю розумію вплив цих різних розкол в різних ситуаціях.

  • Як вони порівнюються за зміщенням / дисперсією?
  • Як вони порівнюються за наявності невідповідних змінних?
  • Як вони порівнюються за наявності корельованих змінних?

2
(a) ERT іноді може бути більш упередженим через менш оптимальні розщеплення / ERT іноді зменшить дисперсію через подальшу декорреляцію дерев; (б) я гадаю те саме, не впевнений; (в) я думаю, те саме, не впевнений. Додатково: Я б не назвав розщеплення ДЧ детермінованим через випадкову вибіркову вибірку, і дерева, звичайно, ні через завантаження.
Soren Havelund Welling

Що таке uniform split?
октавіан

Відповіді:


28

Позабюджетні (рандомізоване) -дерев (ЕТ) стаття містить аналіз діагонально-дисперсії. На сторінці 16 можна побачити порівняння з декількома методами, включаючи RF на шести тестах (класифікація дерев і три регресії).

Обидва способи приблизно однакові, ET є дещо гіршим, коли існує велика кількість галасливих особливостей (у високомірних наборах даних).

Однак, за умови, що (можливо, ручний) вибір функцій є майже оптимальним, продуктивність приблизно однакова, однак ЕТ може бути обчислювально швидшою.

З самої статті:

Аналіз алгоритму та визначення оптимального значення K для кількох варіантів тестових задач показали, що значення в принципі залежить від специфіки проблеми, зокрема частки нерелевантних ознак . [...] Аналіз зміщення / дисперсії показав, що Екстра-Дерева працюють за рахунок зменшення дисперсії , одночасно збільшуючи зміщення . [...] Коли рандомізація збільшується вище оптимального рівня, дисперсія незначно зменшується, а зміщення часто значно збільшується.

Жодної срібної кулі, як завжди.


П'єр Гюрц, Дамієн Ернст, Луї Веенке. "Надзвичайно рандомізовані дерева"


3
Будь-які посилання (або емпіричні, або теоретичні) щодо ЕТ трохи гірші, коли існує велика кількість галасливих особливостей? Або це базується на досвіді?
ramhiser

1
На мій досвід, навпаки - навпаки: Extra-Trees краще з багатьма галасливими функціями. З застереженням про те, що вам потрібно мати великий ліс (багато оцінювачів, n_estimators в sklearn) і налаштувати кількість особливостей, що розглядаються при кожному розщепленні (max_features in sklearn), щоб це працювало. Одне Екстра-Древо підходить більше ніж одне випадкове лісове дерево, але якщо у вас є багато зайвих дерев, вони, як правило, перекривають різними способами, а не надмірно. Я часто отримую суттєве вдосконалення до 3000 оцінювачів.
денсон

Як зазначав @ramhiser, ET, здається, зберігає більш високу продуктивність за наявності галасливих особливостей. Чи можете ви додати якісь посилання на свою відповідь?
Гонкало Перес підтримує Моніку

3

Відповідь - це залежить. Я пропоную вам спробувати як випадковий ліс, так і зайві дерева щодо вашої проблеми. Спробуйте великий ліс (1000 - 3000 дерев / оцінювачів, n_estimators в sklearn) і налаштуйте кількість особливостей, що розглядаються при кожному розколі (max_features у sklearn), а також мінімальні зразки на розкол (min_samples_split у sklearn) та максимальну глибину дерева ( max_depth у sklearn). З огляду на це, ви повинні пам’ятати, що надстроювання може бути формою накладання.

Ось дві проблеми, над якими я працював особисто, де додаткові дерева виявились корисними з дуже галасливими даними:

Рішення лісів для машинного навчання класифікації великих, галасливих наборів функцій морського дна

Ефективне прогнозування розладу білкових розладів із вставленими зразками


2

Дуже дякую за відповіді! Оскільки у мене ще виникали запитання, я здійснив чисельне моделювання, щоб отримати більше уявлень про поведінку цих двох методів.

  • Зрозуміло, що додаткові дерева зберігають більш високу продуктивність за наявності галасливих особливостей.

На малюнку нижче показана ефективність (оцінюється за допомогою перехресної перевірки), оскільки до набору даних додаються випадкові стовпці, неістотні до цілі. Ціль - це лише лінійна комбінація перших трьох стовпців. випадковий ліс проти зайвих дерев за наявності невідповідних змінних

  • Коли всі змінні є релевантними, здається, що обидва способи досягають однакової продуктивності,

  • Додаткові дерева здаються втричі швидшими, ніж випадковий ліс (принаймні, у науковому процесі навчання)

Джерела

Посилання на повну статтю: випадковий ліс проти зайвих дерев .


З вашої пов’язаної статті: "Синім кольором представлені результати випадкового лісу та червоного кольору для зайвих дерев".
tomsv
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.