Як я можу включити випадкові ефекти (або повторні заходи) у randomForest


22

Я навіть не впевнений, що питання має багато сенсу, але я думаю, що я побачив пару назв робіт, де вони пропонували випадковий ліс із випадковими ефектами. Чи можливо це в R?


1
Так, це не має великого сенсу. Що ви маєте на увазі під випадковими ефектами?
Симоне

Я думаю про щось подібне до того, що ви можете зробити з функцією lmer, де ви можете включити випадковий ефект як (1 | ефект).
mguzmann

Так це моделюється відпал у випадковому лісі? econpapers.repec.org/article/bpjjqsprt/… researchgate.net/publication/…
EngrStudent

2
Я не зовсім впевнений у тому, що таке випадковість - це методи, які ви шукаєте за адресами. Випадкові ліси - це просте поліпшення порівняно з забоєм дерев, декоруючи дерево. Причиною того, що його називають "випадковим", є той факт, що в будь-якому випадку, коли розкол розглядається у дереві, кандидат розбиття вибирається з випадкової підмножини m провідників скажімо р. Зазвичай m ~ sqrt (p). І кожного разу, коли трапляється розкол, вибирається випадкова підмножина провісників, отже, випадковий ліс.
psteelk

Відповіді:


13

Вони зазвичай не використовуються разом, і перед їх поєднанням слід бути обережними.

Випадкові ліси зазвичай використовуються як класифікатори. Причиною того, що ви б використовували випадковий ліс замість іншого методу (наприклад, кластеризація K-засобів), є те, що у вас може бути велика кількість вимірів, які ви хочете класифікувати. Проблема з великою кількістю вимірів полягає в тому, що якби ви хотіли перевірити всі комбінації порядків розмірів, у вас була б велика кількість варіантів (вона зростає швидше, ніж кількість факторів вимірів).

Випадкові ефекти зазвичай використовуються при регресії з повторними заходами одного і того ж. Вони зазвичай використовуються в моделях зі змішаними ефектами, де термін змішаний позначає як фіксовані, так і випадкові ефекти. Вважається, що фіксовані ефекти відображають параметри, які ви побачите знову (наприклад, наркотики або вік людини). Як вважається, випадкові ефекти представляють собою примірник змінності навколо параметра, який ви більше не побачите (наприклад, конкретна особа).

Є приклади їх спільного використання, коли є кластерні дані http://dx.doi.org/10.1080/00949655.2012.741599 та http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf .

Я не знаю жодного пакету R, який може зробити цей аналіз.


2
Крім того, автори цієї роботи із задоволенням діляться з вами кодом R їхньої реалізації. Просто надішліть їм електронне повідомлення. Це я і зробив.
Brash Equilibrium

Я зв’язався з Ларокком, який зв’язався з Хаджам, який надіслав мені по електронній пошті протягом двох днів.
Brash Equilibrium

2
Справедливе попередження, однак, наявний код R реалізує лише випадковий ліс для постійних даних. Вам потрібно буде розширити його для вирішення категоричних даних.
Brash Equilibrium

10

Так, це можливо. Ви повинні перевірити " RE-EM Trees: підхід до вибору даних для поздовжніх та кластеризованих даних " та пов'язаний з ним пакет R REEMtree .

Минув час, як я подивився на папір. Я пригадую, автори ще не намагалися формувати ансамблі цих дерев, але нічого не припускало, що це не вийде.


1
REEMtree - не випадкові ефекти, застосовані до випадкових лісів. Він застосовується для рекурсивного розподілу, який є лише частиною того, що переходить у випадкову лісову модель. Тому я не думаю, що ця відповідь заслуговує на більшу оцінку, ніж Білл Денні. На жаль, моє рішення про це заблоковано.
Brash Equilibrium

1
Давай, як тільки ти здобудеш дерево, як важко будувати ліс? І ласкаво просимо.
Бен Огорек

1
Що ж, ми бачимо, як випадковий ліс додає вибірку завантажувального завантаження, налаштування кількості випадково вибраних функцій для спробу, агрегування результатів дерев тощо, і нам потрібен випадковий вплив на випадкові прогнози лісу, а не прогнози окремих дерев у цьому ліс, розширення REEMtree не є настільки хорошим рішенням, як читання статті, яку цитував Білл, і вимагати коду R у своїх авторів.
Brash Equilibrium

8

Випадкові ліси зі змішаними ефектами - річ. Як зазначено у відповіді вище, існує велике дослідження про них групи доктора Ларокко в HEC Montreal. Документ знаходиться тут: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

По суті, це теоретично обгрунтований спосіб поєднання нелінійного моделювання випадкових лісів з лінійними випадковими ефектами.

Ми щойно випустили пакет з відкритим кодом у Python, що реалізує MERF, використовуючи вищевказаний алгоритм у статті.

Ми написали докладний пост у блозі про пакет та про те, як його використовувати для кластерних наборів даних.


1
будь-які думки щодо впровадження цього в R або додавання функціональної ділянки для часткової залежності
OliverFishCode
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.