Чи фіксують дерева CART взаємодії між передбачувачами?


9

У цьому документі стверджується, що в CART, оскільки бінарний розкол виконується по одному коваріату на кожному кроці, всі розщеплення є ортогональними, тому взаємодії між коваріатами не враховуються.

Однак багато дуже серйозних посилань стверджують, навпаки, що ієрархічна структура дерева гарантує, що взаємодія між предикторами буде автоматично змодельована (наприклад, цей документ , і звичайно Хасті).

Хто прав? Чи фіксують дерева, вирощені CART, взаємодію між вхідними змінними?


Недолік аргументу полягає в тому, що розщеплення робляться на підмножинах коваріатів, визначених розщепленнями, виконаними раніше.

@mbq, тому нові розщеплення є умовними щодо попередніх розщеплень ... Я бачу ... Я думаю, у мене виникли проблеми з розумінням того, що "обумовлений попереднім розщепленням, зробленим на даному прогнокторі", було еквівалентно "взаємодії з цим предиктором "...
Антуан

Відповіді:


12

CART може фіксувати ефекти взаємодії. Ефект взаємодії міжХ1 і Х2 виникає, коли дія пояснювальної змінної Х1 на змінну відповіді Y залежить від рівня Х2. Це відбувається в наступному прикладі:

введіть тут опис зображення

Ефект поганих економічних умов (назвіть це Х1) залежить від типу будівлі, що купується (Х2). Інвестуючи в офісну будівлю, погані економічні умови знижують прогнозовану вартість інвестиції на 140 000 доларів. Але при інвестуванні в багатоквартирний будинок прогнозована вартість інвестиції зменшується на 20 000 доларів. Вплив поганих економічних умов на прогнозовану вартість ваших інвестицій залежить від типу нерухомості, що купується. Це ефект взаємодії.


3

Коротка відповідь

CARTs потребують допомоги у захопленні взаємодій.

Довга відповідь

Візьміть точний жадібний алгоритм (Chen and Guestrin, 2016):

Точний жадібний алгоритм

Середнє значення на листі буде умовним очікуванням, але кожен розкол на шляху до листочка не залежить від іншого. Якщо функція A сама по собі не має значення, але вона має значення при взаємодії з Feature B, алгоритм не розділиться на Feature A. Без цього розщеплення алгоритм не може передбачити розщеплення на Feature B, необхідного для генерації взаємодії.

Дерева можуть вибирати взаємодії за найпростішими сценаріями. Якщо у вас є набір даних з двома функціямих1,х2 і націлити у=ХОR(х1,х2), алгоритм не має на чому розділити, але х1 і х2, отже, у вас вийде чотири листки ХОR оцінено належним чином.

Завдяки безлічі функцій, регуляризації та жорсткого обмеження кількості розщеплень, той самий алгоритм може опускати взаємодії.

Обхідні шляхи

Явні взаємодії як нові функції

Приклад з Чжан ("Виграші змагання з наукових даних", 2015):

Чжан про взаємодії

Алгоритми неживого дерева

В іншому запитанні Сімоне пропонує алгоритми на основі пошуку та косі дерева рішень .

Інший підхід до навчання

Деякі методи навчання краще обробляють взаємодію.

Ось таблиця з «Елементи статистичного навчання» (рядок «Здатність до вилучення лінійних комбінацій ознак»):

Порівняння методів навчання

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.