Чи можуть регресивні дерева прогнозувати постійно?


11

Припустимо, у мене є така гладка функція, як . У мене є навчальний набір D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} і, звичайно, я не знаю f, хоча можу оцінити f, куди хочу.f(х,у)=х2+у2D{((х,у),f(х,у))|(х,у)R2}ff

Чи здатні дерева регресії знаходити плавну модель функції (отже, крихітна зміна вхідних даних може призвести лише до незначних змін у виході)?

З того, що я прочитав у лекції 10: Дерева регресії, мені здається, що дерева регресії в основному ставлять значення функцій у бункери:

Для класичних дерев, що регресують, модель у кожній комірці є лише постійною оцінкою Y.

Як вони пишуть "класичний", я думаю, є варіант, коли клітини роблять щось цікавіше?

Відповіді:


2

Дерева регресії, особливо при збільшенні градієнта (по суті, багато дерев), як правило, дуже добре справляються з безперервними прогнозами, часто перевершуючи моделі, які справді неперервні, як лінійна регресія, коли. Особливо це стосується змінних взаємодій і коли у вас є достатньо великий набір даних (понад 10 000 записів), щоб переозброєння було менш ймовірним. Якщо ваша основна мета - це просто передбачувальна сила, то незалежність від того, чи є модель на 100% безперервною чи псевдо безперервною, має бути неактуальним. Якщо зрощення ваших дерев регресії більш безперервним збільшується за рахунок прогнозованої потужності вибірки, ви можете просто збільшити глибину дерева або додати більше дерев.


1
Я згоден. Мої буйовані дерева майже завжди перевершують дуже кропітко вироблені та оптимізовані GLM. Звичайно, ви втрачаєте інтерпретацію, коли набуваєте прогностичної сили.
провідник

0

У класичних дерев регресії у вас є одне значення в листі, але в аркуші ви можете мати лінійну модель регресії, перевірте цей квиток.

Ви також можете використовувати ансамбль дерев (Випадкові лісові або градієнтні підсилювальні машини), щоб мати постійне значення виходу.


0

Якщо ви трохи розширите питання, щоб включити загальні методи збільшення градієнта (на відміну від особливого випадку дерев з посиленою регресією), то відповідь - так. Підвищення градієнта успішно використовується як альтернатива для варіативного вибору. Хороший приклад - пакет mboost . Ключовим є те, що клас базових учнів, який використовується для підвищення рівня, складається з безперервних моделей, для початку. У цьому підручнику описані типові класи базових учнів наступним чином:

Загальновживані моделі базового учня можуть бути класифіковані на три різні категорії: лінійні моделі, гладкі моделі та дерева рішень. Існує також ряд інших моделей, таких як маркові випадкові поля (Dietterich et al., 2004) або вейвлети (Viola і Jones, 2001), але їх застосування виникає для відносно конкретних практичних завдань.

Зауважимо, що він особливо згадує вейвлети. Дерева та вейвлетки раніше успішно поєднувались у вейвлетах на основі дерев.


Що таке безперервна база для студентів, що підвищують градієнт? Якщо відповідь - це дерева рішень, чи можете ви пояснити, як вони є безперервними?
Мартін Тома

Я оновив свою відповідь. Ключ полягає у використанні безперервних деревоподібних предикторів.
користувач3605620
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.