Як слід реалізувати розбиття дерева рішень при прогнозуванні постійних змінних?


15

Я фактично пишу реалізацію випадкових лісів, але я вважаю, що питання стосується дерев рішень (незалежно від РФ).

Отже, контекст полягає в тому, що я створюю вузол у дереві рішень, і змінні прогнозування, і цілі є безперервними. Вузол має розділений поріг для даних розділів на два набори, і я створюю новий прогноз для кожного підмножини на основі середнього цільового значення в кожному наборі. Це правильний підхід?

Причина, яку я запитую, полягає в тому, що при прогнозуванні бінарних змінних я вважаю, що типовим (правильним?) Підходом є поділ даних на 0 та 1 підмножини, не беручи середнього значення за рядками даних у кожному підмножині. Подальші розбиття поділяться на більш дрібнозернисті підмножини та беруть середнє значення при кожному розбитті результатів наступних розщеплень (опускаючи вниз дерево рішень), що діють на теперішні постійні змінні, а не на бінарні змінні (адже ми працюємо на залишкових значеннях помилок замість вихідних цілі).

Побічне запитання: Чи є різниця між двома підходами (бінарний проти безперервного) важливою - чи вони насправді дадуть однакові результати для повного дерева рішень?


1
Розщеплення на безперервну змінну буде впевнене, що отримана "модель" не відповідатиме належним чином даним. Якщо у вас є один безперервний X і один безперервний Y, розгляньте використання легшого непараметричного плавнішого.
Френк Харрелл

Проблема, над якою я працюю зараз, має безліч змінних предикторів (суміш безперервного та бінарного) та одну цільову змінну. Тому я вважаю, що РФ - це розумний підхід.
redcalx

2
Дуже ймовірно, що так. Але випадковий ліс - це суміш дерев (це не дерево рішень), тому він наближає безперервні взаємозв'язки, роблячи кілька розщеплень, і фактично, використовуючи усадку. Тож я не думаю, що ваше первісне питання стосується, якщо я його розумію.
Френк Харрелл

Я відчуваю бажання сказати , що ваше опис безперервного випадку є правильним (тобто стандартним способом робити речі), але ваше опис змінними випадку бінарному не збігається взагалі з моїм розумінням того , як випадкові лісів (або рішенням дерева) працюють, тому я переживаю, що хтось із нас заплутався.
Іран

@joran Так, примушуючи прогнози дорівнювати 0 або 1, ви втрачаєте можливість вносити тонкі корективи в прогнози (між 0 і 1), які можуть знижувати помилки (наприклад, середня помилка прогнозу в квадраті). Як такий, я підозрюю, що такий підхід є неповноцінним. Я спробував це, і більшість спроб побудувати дерево рішень не вдалося знайти навіть жодного розбиття, що покращує помилку.
redcalx

Відповіді:


10

Одне потенційне питання дерев полягає в тому, що вони, як правило, погано вписуються в хвости. Подумайте про термінальний вузол, який фіксує низький діапазон навчального набору. Він спрогнозує використання середнього рівня тих навчальних задач, які завжди будуть передбачати результат (оскільки він є середнім).

Ви можете спробувати модельні дерева [1]. Вони підходять до лінійних моделей у термінальних вузлах і (я думаю) роблять кращу роботу, ніж дерева регресії. А ще краще використовувати більш розвинену версію під назвою Cubist, яка поєднує різні підходи ([1] та [2] нижче).

Ці моделі також по-різному обробляють безперервні та дискретні предиктори. Вони можуть робити багатосторонні розбиття для категоричних змінних. Критерій розщеплення дуже схожий на дерева CART.

Модельні дерева можна знайти в R в пакеті RWeka (званий "M5P"), а Cubist - у кубістському пакеті. Звичайно, ви також можете використовувати Weka, і у Cubist є версія C, доступна на веб-сайті RuleQuest.

[1] Quinlan, J. (1992). Навчання за допомогою безперервних занять. Матеріали 5-ї спільної австралійської спільної конференції з питань штучного інтелекту, 343–348.

[2] Quinlan, J. (1993). Поєднання навчання на основі екземплярів та моделей. Праці Десятої міжнародної конференції з машинного навчання, 236–243.


1
Не могли б ви просто мати глибші дерева, щоб мінімізувати погане прилягання до хвостів?
Jase
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.