Чи підходить випадковий ліс для дуже малих наборів даних?


13

У мене є набір даних, що включає 24 рядки щомісячних даних. Особливості - ВВП, прибуття в аеропорт, місяць та кілька інших. Залежна змінна - кількість відвідувачів популярного туристичного напряму. Чи підійде випадковий ліс для такої проблеми?

Дані не є загальнодоступними, тому я не можу розмістити зразок.


Зазвичай одне обмеження для випадкового лісу полягає в тому, що ваша кількість особливостей має бути досить великою - перший крок РФ - це вибрати 1 / 3n або sqrt (n) функції для побудови дерева (залежно від завдання, регресії / класифікації). Тож якщо у вас досить багато функцій, використовуйте RF навіть на невеликих наборах даних - не існує алгоритму, який би дуже добре працював на невеликих наборах даних, щоб ви нічого не втратили.
Німець Демидов

Ти в низькому діапазоні. РФ буде працювати, але, ймовірно, не навчиться набагато складніших речей, ніж те, що можна було б зрозуміти, поглянувши на необроблені дані. Це допомагає, якщо у ваших даних дуже низький рівень шуму. З 40-50 проб починає покращуватися. 500 хороших. 5000 див.
Сорен Хавелунд Веллінг

для регресії можлива глибина дерева обмежена minnode = 5, тому ваші зразки в середньому не розщепляться більше ніж у 2 рази [[24 -> (1) 12 -> (2) 6.]] Включаючи обмеження mtry, Модель матиме важкий час, зафіксувавши будь-який ефект взаємодії або навіть простий нелінійний ефект. Ви можете поспілкуватися з minnode та mtry, але робити це потрібно лише в тому випадку, якщо ваші дані практично менше шуму. Потенціал над пристосованими висновками може бути зворотним боком. Отримана вами структура моделі виглядатиме як грубо згладжена крокова функція.
Сорен Хавелунд Веллінг


Для невеликих наборів даних використовуйте техніку перехресної перевірки. Для отримання додаткової інформації, stats.stackexchange.com/questions/19048/…
Асіф Хан

Відповіді:


4

Випадковий ліс - це, як правило, перекомпонування та тренування дерев рішень на вибірках, тому відповідь на ваше запитання потребує вирішення цих двох.

Повторне розміщення Bootstrap не є ліком для невеликих зразків . Якщо у вашому наборі даних всього двадцять чотири спостереження, то кожен із зразків, взятих із заміною з цих даних, буде складатися не більше ніж з двадцяти чотирьох чітких значень. Перемішання справ і не малювання деяких з них не дуже змінить вашу здатність дізнаватися щось нове про базовий розподіл. Тож невеликий зразок є проблемою для завантажувальної програми.

Дерева рішень тренуються шляхом умовного поділу даних на змінні предиктора, по одній змінній за часом, щоб знайти такі підпроби, які мають найбільшу дискримінаційну силу. Якщо у вас всього двадцять чотири випадки, то скажіть, що якби вам пощастило, і всі розколи були навіть за розміром, то з двома розщепленнями ви б закінчилися чотирма групами з шести випадків, з деревними розщепленнями, з вісьмома групами з трьох. Якщо ви обчислили умовні засоби на вибірках (для прогнозування постійних значень у деревах регресії чи умовних ймовірностей у деревах рішень), ви б базували свій висновок лише на цих кількох випадках! Таким чином, субпроби, які ви б використали для прийняття рішень, були б ще меншими, ніж ваші вихідні дані.

З невеликими зразками зазвичай розумно використовувати прості методи . Більше того, ви можете наздогнати невеликий зразок, скориставшись інформаційними пріорами в байєсівській обстановці (якщо у вас є якісь розумні знання про проблему, що не має даних), тож ви можете розглянути можливість використання іншої спеціальної байесівської моделі.


1

З одного боку, це невеликий набір даних, і випадковий ліс є голодним.

З іншого боку, можливо, щось краще, ніж нічого. Немає нічого сказати, як "Спробуйте і подивіться". Ви вирішуєте, чи є якась конкретна модель "хорошою"; крім того, ми не можемо сказати, чи підходить будь-яка модель до певної мети (і ви не хотіли б, щоб ми не коштували, якщо ми помиляємось!).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.