Дерева рішень та регресія - Чи можуть передбачувані значення виходити за межі даних про навчання?


11

Якщо мова йде про дерева рішень, чи може передбачуване значення лежати поза діапазоном даних про навчання?

Наприклад, якщо діапазон набору навчальних даних цільової змінної становить 0-100, коли я генерую свою модель і застосовую її до чогось іншого, чи можуть мої значення становити -5? або 150?

З огляду на те, що моє розуміння регресії дерева рішень полягає в тому, що це все-таки правила, засновані на лівій / правій прогресії, і що внизу дерева в навчальному наборі він ніколи не може побачити значення поза певним діапазоном, воно ніколи не зможе передбачити це?


1
Для подібного запитання щодо дерев, підсилених градієнтом, див. Stats.stackexchange.com/questions/304962/…
Адріан

Відповіді:


11

Ви абсолютно праві: класичні дерева рішень не можуть передбачити значення поза межами історичного діапазону. Вони не будуть екстраполювати.

Те ж стосується і випадкових лісів.

Теоретично ви іноді бачите обговорення дещо більш досконалої архітектури (ботаніки?), Де листя дерева не дають єдиного значення , а містять просту регресію , наприклад, регресування залежної змінної на певну числову незалежну змінну. Навігація по дереву дасть вам набір правил, за яким числовим IV регресувати DV в якому випадку. У такому випадку ця регресія "нижнього рівня" може бути екстраполірована, щоб отримати ще не спостерігаються значення.

Однак я не думаю, що стандартні бібліотеки машинного навчання пропонують цю дещо складнішу структуру (я нещодавно шукав це через CRAN Task Views for R), хоча насправді в цьому не повинно бути нічого складного. Можливо, вам вдасться реалізувати власне дерево, що містить регресії у листках.


1
Я мало читав про mobForest, які підтримують регресію листя в R, stats.stackexchange.com/questions/48475/mobforest-r-package
Soren Havelund Welling

1
@SorenHavelundWelling: це звучить цікаво. Дякуємо за вказівник!
Стефан Коласа

1
Одним із перших алгоритмів надання лінійних регресійних моделей у листках дерева був М5 Квінлана, апроксимація якого доступна у M5P () у Веці (зв'язана в R через RWeka). Незаангажований алгоритм проблеми, званий GUIDE, вперше запропонував Лох. Бінарні файли для його самостійного пакету розміщені на його веб-сайті. Нарешті, наш рекурсивний алгоритм розподілу на основі моделі (MOB) включає різні подібні моделі. Він доступний в пакеті пакету R: mob () - це загальний інструмент, а lmtree () і glmtree () - це його адаптація до дерев із (узагальненими) лінійними моделями в листках.
Ахім Зейлейз


1
Просто голова вгору, що mobForest повернувся на CRAN: cran.r-project.org/web/packages/mobForest/index.html
mkt -

7

Також ознайомтеся з кубісткою в упаковці каре. Він будує лінійні регресії в термінальних вузлах і може екстраполювати прогнози вище та нижче діапазону значень відповідей у ​​навчальних даних. Кінцеві вузли також можуть бути усереднені на основі найближчих сусідів, що надається як гіперпараметр, тому він має потенціал для надання надзвичайно точних перехресних перевірених прогнозів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.