Чи переважають випадкові ліси?


24

Я читав про випадкові ліси, але насправді не можу знайти остаточної відповіді на проблему надмірного оздоблення. Згідно з оригінальною доповіддю Бреймана, вони не повинні перевтомлюватися при збільшенні кількості дерев у лісі, але, здається, щодо цього немає єдиної думки. Це створює у мене досить непорозуміння щодо цього питання.

Можливо, хтось більш експертний, ніж я, може дати мені більш конкретну відповідь або направити мене в правильному напрямку, щоб краще зрозуміти проблему.


3
Усі алгоритми до певної міри будуть надлишковими. Справа не в тому, щоб вибрати щось, що не підходить, це про те, щоб ретельно розглянути кількість перевищення та форму проблеми, яку ви вирішуєте, щоб досягти максимальної кількості релевантних показників.
indico

1
ISTR, що Брейман мав доказ, заснований на Законі великих чисел. Хтось виявив недолік у цьому доказі?
JenSCDC

Відповіді:


22

Кожен алгоритм ML з високою складністю може перевершити. Однак, ОП запитує, чи не буде РФ надмірно підвищувати кількість дерев у лісі.

Загалом, ансамблеві методи зводять дисперсію передбачення майже ні до чого, підвищуючи точність ансамблю. Якщо ми визначимо дисперсію очікуваної похибки узагальнення індивідуальної рандомізованої моделі як:

Від тут , дисперсія очікуваної похибки генералізації ансамблю відповідає:

де p(x)коефіцієнт кореляції Пірсона між прогнозами двох рандомізованих моделей, підготовлених за тими самими даними з двох незалежних насіння. Якщо збільшити кількість DT в РФ, то більше M, дисперсія ансамблю зменшується, коли ρ(x)<1. Тому дисперсія ансамблю суворо менша, ніж дисперсія індивідуальної моделі.

У двох словах, збільшення кількості окремих рандомізованих моделей в ансамблі ніколи не збільшить помилку узагальнення.


1
Це безумовно те, що говорить Лео Брейман і теорія, але емпірично здається, що вони безумовно переоцінюють. Наприклад, в даний час у мене є модель з 10-кратним CV MSE 0,02, але, коли її вимірювати проти основної істини, CV MSE становить 4. ОТО, якщо я зменшу глибину дерева та кількість дерев, продуктивність моделі значно покращується.
Hack-R

4
Якщо ви зменшите глибину дерева, це інший випадок, тому що ви додаєте регуляризацію, що зменшить надмірну обробку. Спробуйте побудувати MSE, коли ви збільшуєте кількість дерев, зберігаючи інші параметри незмінними. Отже, у вас є MSE на осі y та num_tress в осі x. Ви побачите, що при додаванні більше дерев помилка швидко зменшується, і тоді вона має плато; але він ніколи не збільшиться.
ташушка

9

Можливо, ви хочете перевірити перехресну перевірку - веб-сайт, що підтримує stachexchange, для багатьох речей, включаючи машинне навчання.

Зокрема, на це питання (з точно такою ж назвою) вже відповіли неодноразово. Перевірте ці посилання: /stats//search?q=random+forest+overfit

Але я можу дати вам коротку відповідь на це: так, це перевершує, і іноді вам потрібно контролювати складність дерев у вашому лісі або навіть обрізати, коли вони занадто зростають - але це залежить від бібліотеки, яку ви використовуєте будівництво лісу. Наприклад, в randomForestR ви можете контролювати лише складність


3
  1. Випадковий ліс справді вигідний.
  2. Випадковий ліс не збільшує помилку узагальнення, коли в модель додано більше дерев. Дисперсія узагальнення буде до нуля, коли буде використано більше дерев.

Я зробив дуже простий експеримент. Я створив синтетичні дані:

y = 10 * x + noise

Я навчаю дві моделі Random Forest:

  • один з повними деревами
  • один із обрізаними деревами

Модель з повноцінними деревами має меншу похибку поїзда, але вищу помилку тесту, ніж модель із обрізаними деревами. Відповіді обох моделей:

відповіді

Це явні докази перевиконання. Потім я взяв гіперпараметри переоснащеної моделі і перевірив помилку, додаючи на кожному кроці 1 дерево. У мене з'явився такий сюжет:

зростаючі дерева

Як ви бачите, помилка накладання не змінюється при додаванні більше дерев, але модель є переоформленою. Ось посилання на експеримент, який я зробив.


1

СТРУКТУРОВАНИЙ ДАТАСЕТ -> ПОМИЛЕННЯ ПОМИЛКІВ OOB

У своїй робочій практиці я виявив цікавий випадок надмірного оснащення РФ. Коли дані структуровані надмірно ВЧ на спостереженнях OOB.

Детальніше:

Я намагаюся передбачити ціни на електроенергію на спотовому ринку електроенергії на кожну годину (кожен рядок набору даних містить цінові та системні параметри (навантаження, потужність тощо) на одну годину).
Ціни на електроенергію створюються партіями (24 ціни, створені на ринку електроенергії за один момент фіксації за один момент часу).
Таким чином, OOB для кожного дерева є випадковими підмножинами набору годин, але якщо ви прогнозуєте, що наступні 24 години ви робите це все відразу (в перший момент ви отримуєте всі системні параметри, то ви прогнозуєте 24 ціни, то відбувається фіксація, яка виробляє ці ціни), тому простіше робити прогнози OOB, а потім на весь наступний день. Офіційні послуги OOB не містяться в цілодобових блоках, а розподіляються рівномірно, оскільки існує автокореляція помилок прогнозування, простіше передбачити ціну за одну годину, яка відсутня тоді для цілого блоку пропущених годин.

простіше передбачити у випадку автокореляції помилок:
відомий, відомий, прогнозування, відомий, прогнозування - справа OBB
важче:
відомий, відомий, відомий, прогнозування, прогнозування - випадок прогнозування у реальному світі

Я сподіваюся, що це цікаво

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.