Яка слабка сторона дерев рішень?


34

Дерева рішень здаються дуже зрозумілим методом машинного навчання. Після його створення людина може бути легко перевірена людиною, що є великою перевагою в деяких програмах.

Які практичні слабкі сторони дерев рішень?

Відповіді:


37

Ось пару, про яку я можу придумати:

  • Вони можуть бути надзвичайно чутливими до невеликих збурень у даних: незначна зміна може призвести до різко іншого дерева.
  • Вони легко переповнюють. Це можна заперечувати методами перевірки та обрізки, але це сіра зона.
  • У них можуть виникнути проблеми з позабіржовим прогнозуванням (це пов'язано з тим, що вони є негладкими).

Деякі з них пов'язані з проблемою мультиколінеарності : коли дві змінні обидві пояснюють одне і те ж, дерево рішень жадібно вибере найкращий, тоді як багато інших методів використовуватимуть їх обидва. Методи ансамблю, такі як випадкові ліси, можуть певною мірою заперечувати це, але ви втрачаєте простоту розуміння.

Однак найбільшою проблемою, принаймні, з моєї точки зору, є відсутність принципової ймовірнісної бази. У багатьох інших методах є такі інтервали, як довірчі інтервали, задній розподіл тощо, які дають нам уявлення про те, наскільки хороша модель. Дерево рішень - це врешті-решт спеціальна евристика, яка все ще може бути дуже корисною (вони відмінно підходять для пошуку джерел помилок при обробці даних), але є небезпека, щоб люди трактували результати як "правильну" модель (від моєї досвід, у маркетингу це трапляється багато).


2
З точки зору ML, дерева можна перевірити так само, як і будь-який інший класифікатор (наприклад, CV). Все ж це швидше показує, що трапилося важке надмірне покриття ;-) Також РФ уникає мультиколінеарності не тому, що це ансамбль, а тому, що його дерева неоптимальні.

2
Про вірогідні рамки дерев рішень див. DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ), який базується на роботі "Wallace CS & Patrick JD,` Кодування дерев рішень ", Machine Machine , 11, 1993, с.77-22 ".
emakalic

2
Крім того, чи не можливо отримати CI (за прогнозами) за допомогою завантажувальної програми?
Тал Галілі

@Simon Byrne, у мене є питання щодо вашого коментаря "Однак найбільшою проблемою, принаймні, з моєї точки зору, є відсутність принципової ймовірнісної рамки". Вибачте за моє невігластво, але чи можете ви, будь ласка, вказати мені на деякі практичні принципові ймовірнісні рамки (зокрема в контексті класифікації). Мене дуже цікавить це обмеження дерев рішень.
Амеліо Васкес-Рейна

2
@AmV, одним із прикладів може бути логістична регресія: ми можемо використовувати той факт, що кожне спостереження походить з двочлена для отримання довірчих / достовірних інтервалів та перевірки припущень моделі.
Саймон Бірн

23

Одним недоліком є ​​те, що всі терміни передбачають взаємодію. Тобто у вас не може бути двох пояснювальних змінних, які ведуть себе незалежно. Кожна змінна дерево змушена взаємодіяти з кожною змінною далі вгору по дереву. Це вкрай неефективно, якщо є змінні, які не мають або слабкі взаємодії.


мені цікаво, чи це практичне обмеження - для змінної, яка лише слабко впливає на класифікацію, моя інтуїція полягає в тому, що Дерево, швидше за все, не розділиться на цю змінну (тобто це не буде вузлом), що в свою чергу означає це непомітно, наскільки йде класифікація дерева рішень.
дог

Я кажу про слабку взаємодію, а не про слабкий вплив на класифікацію. Взаємодія - це зв'язок між двома змінними предиктора.
Роб Хайндман

2
Це може бути неефективно, але структура дерева може це впоратися.

Ось чому я сказав неефективним, а не упередженим чи неправильним. Якщо у вас є навантаження даних, це не має великого значення. Але якщо ви підходите до дерева на кілька сотень спостережень, то передбачувані взаємодії можуть значно зменшити точність прогнозування.
Роб Хайндман

2
Погодьтеся; Я просто хотів це висвітлити. І все-таки я думаю, що зниження точності прогнозування можна зняти, використовуючи належну підготовку; у філогенетиці аналогічна проблема (жадібність) зменшується скануванням Монте-Карло можливого простору дерев, щоб знайти максимальну ймовірність - я не знаю, чи є подібний підхід у статистиці, напевно, ніхто не турбував цю проблему такою ступінь.

12

Моя відповідь спрямована на CART (реалізація C 4.5 / C 5), хоча я не думаю, що цим обмежуюсь. Я здогадуюсь, що це на увазі ОП - це зазвичай те, що хтось має на увазі, коли вони говорять «Дерево рішень».

Обмеження дерев рішень :


Низька продуктивність

Під "продуктивністю" я маю на увазі не дозвіл, а швидкість виконання . Причина, чому це погано, полягає в тому, що вам потрібно "перемальовувати дерево" щоразу, коли ви бажаєте оновити свою модель CART - дані, класифіковані вже навченим деревом, які потім ви хочете додати до Дерева (тобто використовувати як Точка даних про навчання) вимагає, щоб ви починали з екземплярів перенавчання, не можна додавати їх поступово, як це можливо для більшості інших керованих алгоритмів навчання. Мабуть, найкращий спосіб констатувати це те, що Дерева рішень не можна навчати в онлайн-режимі, а лише в пакетному режимі. Очевидно, ви не помітите цього обмеження, якщо не оновите свій класифікатор, але тоді я би сподівався, що ви побачите падіння роздільної здатності.

Це важливо, тому що, наприклад, для багатошарових перцептронів, коли він тренується, він може розпочати класифікацію даних; ці дані також можуть бути використані для «налаштування» вже підготовленого класифікатора, хоча з «Деревами рішень» вам потрібно перевчитись із усім набором даних (оригінальні дані, що використовуються в навчанні плюс будь-які нові екземпляри).


Погана роздільна здатність даних зі складними відносинами між змінними

Дерева рішень класифікують за допомогою поетапної оцінки точки даних невідомого класу, одного вузла за часом, починаючи з кореневого вузла і закінчуючи кінцевим вузлом. І на кожному вузлі можливі лише дві можливості (зліва-справа), отже, є деякі змінні відносини, які Дерева рішень просто не можуть вивчити.


Практично обмежується класифікацією

Дерева рішень найкраще працюють, коли вони навчаються призначити точку даних класу - бажано одному з лише кількох можливих класів. Я не вірю, що я ніколи не мав жодного успіху, використовуючи Дерево рішень у режимі регресії (тобто постійний вихід, наприклад, ціна або очікуваний дохід від життя). Це не формальне або притаманне обмеження, а практичне. Здебільшого Дерева рішень використовуються для прогнозування факторів або дискретних результатів.


Погана роздільна здатність з постійними змінними очікуваннями

Знову ж таки, в принципі, нормально мати незалежні змінні, такі як "час завантаження" або "кількість днів з моменту попередньої онлайн-покупки" - просто змініть критерій розщеплення на дисперсію (зазвичай це інформаційна ентропія або домішка Джині для дискретних змінних), але в моїй досвід Дерева рішень рідко працюють у цьому випадку. Виняток становлять такі випадки, як "вік студента", який виглядає безперервним, але на практиці діапазон значень є досить малим (особливо, якщо вони повідомляються як цілі числа).


1
+1 за гарний дзвінок під кутом ефективності, який зазвичай не отримує достатньої кількості гри. Я бачив, як Дерева рішень стикаються з проблемами продуктивності на декількох програмних платформах, розроблених для великих наборів даних (наприклад, SQL Server), принаймні порівняно з іншими методами обміну даними. Це окрім всього питання про перепідготовку, який ви порушили. Здається, погіршується у випадках, коли відбувається надмірне обладнання (хоча це можна сказати про багато інших алгоритмів видобутку).
SQLServerSteve

10

Тут є хороші відповіді, але я здивований, що одна річ не була наголошена. CART не робить жодних розподільних припущень щодо даних, зокрема змінної відповіді. На противагу цьому , МНК (для безперервних змінних відгуку) і логістичної регресії (для певних категоріальних змінних відгуку), наприклад, дійсно роблять сильні припущення; конкретно, регресія OLS передбачає, що відповідь умовно нормально розподіляється, а логістична передбачає, що відповідь є двочленною або багаточленною.

Відсутність таких припущень у CART - це меч з двома острими. Якщо ці припущення не є обґрунтованими, це надає підходу відносну перевагу. З іншого боку, якщо ці припущення виконані, з даних можна витягти більше інформації, враховуючи ці факти. Тобто, стандартні методи регресії можуть бути більш інформативними, ніж CART, коли припущення є істинними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.