Чи сума двох дерев рішень рівнозначна одному дереву рішень?


15

Припустимо , що ми маємо два регресійних дерев (Дерево і дерево B) , що відображення вхідних для виведення уR . Нехай у = е А ( х ) для дерева A і F B ( х ) для дерева B. Кожного дерева використовує двійковий шпагат, з гіперплоскостямі як розділові функції.хRгу^Rу^=fА(х)fБ(х)

Тепер, припустимо, ми беремо зважену суму деревних результатів:

fС(х)=шА fА(х)+шБ fБ(х)

Чи еквівалентна функція окремому (глибшому) дереву регресії? fСЯкщо відповідь "іноді", то за яких умов?

В ідеалі я хотів би дозволити косі гіперплани (тобто розбиття, виконані на лінійних комбінаціях ознак). Але, припускаючи, що розділення з однофункціональними можливостями може бути нормальним, якщо це єдина відповідь.

Приклад

Ось два дерева регресії, визначені на вхідному просторі 2d:

введіть тут опис зображення

На малюнку показано, як кожне дерево розділяє вхідний простір та вихід для кожної області (кодується у градаціях сірого). Кольорові числа вказують області вхідного простору: 3,4,5,6 відповідають вузлам листя. 1 - об'єднання 3 і 4 тощо.

Тепер припустимо, що ми середньо оцінюємо вихід дерев A і B:

введіть тут опис зображення

Середній вихідний графік зображений ліворуч, при цьому кордони рішень A і B накладаються. У цьому випадку можливо побудувати єдине глибше дерево, вихід якого еквівалентний середньому (накреслений справа). Кожному вузлу відповідає область вхідного простору, яка може бути побудована з областей, визначених деревами A і B (позначені кольоровими номерами на кожному вузлі; кілька чисел вказують на перетин двох регіонів). Зауважте, що це дерево не унікальне - ми могли почати будувати з дерева B замість дерева A.

Цей приклад показує, що існують випадки, коли відповідь "так". Я хотів би знати, чи завжди це правда.


2
Хм .. Якщо це було так, чому б ми тренували випадковий ліс? (Оскільки чітко лінійна комбінація 500 дерев може бути повторно виражена як 499 зважених парних сум 500 дерев) Приємне запитання, +1.
usεr11852 повідомляє Відновити Моніку

цікаве запитання! Я вважаю, що простір гіпотез дерев рішень та ансамблів рішень (стимулювання, лінійна комбінація дерев) є однаковим. З нетерпінням чекаю на відповідь ..
Лаксан Натан

@ usεr11852 Можливо тому, що використання одного дуже великого дерева замість лісу набагато повільніше? Як і в нейронних мережах, одна мережа прихованого шару вже може наближати всі безперервні функції, але додавання шарів робить мережу швидшою. Не кажучи, що це так і є, але це може бути.
Харто Саарінен

1
@HartoSaarinen: Це цікавий спосіб думати про це, але я підозрюю, що це не так легко. Прийнято вважати, що дуже глибокі дерева можуть погано переробляти та узагальнювати (їх прогнози також досить нестабільні). Крім того (з точки зору швидкості) глибші дерева потребують експоненціально більшої кількості розколів і, отже, більше часу на тренування. (На дереві глибиною 10 є максимум 1023 розколи, але дерево глибиною 20, 1048575 розпадається. Багато ще роботи!)
usεr11852 каже Reinstate Monic

1
@ usεr11852 Я погоджуюся, що це може бути абсолютно неправдивим, а відповідь може бути зовсім іншим. Це те, що робить поле таким цікавим в цей момент, дуже багато речей, які потрібно відкрити!
Харто Саарінен

Відповіді:


6

Так, зважена сума дерев регресії еквівалентна одному (більш глибокому) дереву регресії.

Універсальний аппроксиматор функції

Дерево регресії - це універсальний наближувач функції (див., Наприклад, теорія ). Більшість досліджень наближення універсальних функцій проводиться на штучних нейронних мережах з одним прихованим шаром (читайте цей чудовий блог). Однак більшість алгоритмів машинного навчання є універсальними наближеннями функцій.

Будучи універсальним наближувачем функції, означає, що будь-яку довільну функцію можна приблизно представити. Таким чином, незалежно від того, наскільки складною є функція, універсальне наближення функції може представляти її з будь-якою бажаною точністю. У випадку регресійного дерева ви можете уявити нескінченно глибоке. Це нескінченно глибоке дерево може присвоїти будь-яке значення будь-якій точці простору.

Оскільки зважена сума дерева регресії є ще однією довільною функцією, існує ще одне дерево регресії, яке представляє цю функцію.

Алгоритм створення такого дерева

Т1Т2Т2Т1Т1Т2

Наведений приклад показує два простих дерева, які додаються з масою 0,5. Зауважте, що один вузол ніколи не буде досягнутий, оскільки не існує числа, яке менше 3 і більше 5. Це означає, що ці дерева можна вдосконалити, але це не робить їх недійсними.

введіть тут опис зображення

Навіщо використовувати більш складні алгоритми

Цікаве додаткове питання виникло у коментарях @ usεr11852: чому ми використовуємо алгоритми підвищення (або насправді будь-який складний алгоритм машинного навчання), якщо кожну функцію можна моделювати за допомогою простого дерева регресії?

Дерева регресії дійсно можуть представляти будь-яку функцію, але це лише один критерій алгоритму машинного навчання. Ще одна важлива властивість - наскільки добре вони узагальнюють. Дерева глибокої регресії схильні до переобладнання, тобто вони не узагальнюють добре. Випадковий ліс в середньому містить багато глибоких дерев, щоб запобігти цьому.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.