Дерева рішень здаються дуже зрозумілим методом машинного навчання. Після його створення людина може бути легко перевірена людиною, що є великою перевагою в деяких програмах.
Які практичні слабкі сторони дерев рішень?
Дерева рішень здаються дуже зрозумілим методом машинного навчання. Після його створення людина може бути легко перевірена людиною, що є великою перевагою в деяких програмах.
Які практичні слабкі сторони дерев рішень?
Відповіді:
Ось пару, про яку я можу придумати:
Деякі з них пов'язані з проблемою мультиколінеарності : коли дві змінні обидві пояснюють одне і те ж, дерево рішень жадібно вибере найкращий, тоді як багато інших методів використовуватимуть їх обидва. Методи ансамблю, такі як випадкові ліси, можуть певною мірою заперечувати це, але ви втрачаєте простоту розуміння.
Однак найбільшою проблемою, принаймні, з моєї точки зору, є відсутність принципової ймовірнісної бази. У багатьох інших методах є такі інтервали, як довірчі інтервали, задній розподіл тощо, які дають нам уявлення про те, наскільки хороша модель. Дерево рішень - це врешті-решт спеціальна евристика, яка все ще може бути дуже корисною (вони відмінно підходять для пошуку джерел помилок при обробці даних), але є небезпека, щоб люди трактували результати як "правильну" модель (від моєї досвід, у маркетингу це трапляється багато).
Одним недоліком є те, що всі терміни передбачають взаємодію. Тобто у вас не може бути двох пояснювальних змінних, які ведуть себе незалежно. Кожна змінна дерево змушена взаємодіяти з кожною змінною далі вгору по дереву. Це вкрай неефективно, якщо є змінні, які не мають або слабкі взаємодії.
Моя відповідь спрямована на CART (реалізація C 4.5 / C 5), хоча я не думаю, що цим обмежуюсь. Я здогадуюсь, що це на увазі ОП - це зазвичай те, що хтось має на увазі, коли вони говорять «Дерево рішень».
Обмеження дерев рішень :
Низька продуктивність
Під "продуктивністю" я маю на увазі не дозвіл, а швидкість виконання . Причина, чому це погано, полягає в тому, що вам потрібно "перемальовувати дерево" щоразу, коли ви бажаєте оновити свою модель CART - дані, класифіковані вже навченим деревом, які потім ви хочете додати до Дерева (тобто використовувати як Точка даних про навчання) вимагає, щоб ви починали з екземплярів перенавчання, не можна додавати їх поступово, як це можливо для більшості інших керованих алгоритмів навчання. Мабуть, найкращий спосіб констатувати це те, що Дерева рішень не можна навчати в онлайн-режимі, а лише в пакетному режимі. Очевидно, ви не помітите цього обмеження, якщо не оновите свій класифікатор, але тоді я би сподівався, що ви побачите падіння роздільної здатності.
Це важливо, тому що, наприклад, для багатошарових перцептронів, коли він тренується, він може розпочати класифікацію даних; ці дані також можуть бути використані для «налаштування» вже підготовленого класифікатора, хоча з «Деревами рішень» вам потрібно перевчитись із усім набором даних (оригінальні дані, що використовуються в навчанні плюс будь-які нові екземпляри).
Погана роздільна здатність даних зі складними відносинами між змінними
Дерева рішень класифікують за допомогою поетапної оцінки точки даних невідомого класу, одного вузла за часом, починаючи з кореневого вузла і закінчуючи кінцевим вузлом. І на кожному вузлі можливі лише дві можливості (зліва-справа), отже, є деякі змінні відносини, які Дерева рішень просто не можуть вивчити.
Практично обмежується класифікацією
Дерева рішень найкраще працюють, коли вони навчаються призначити точку даних класу - бажано одному з лише кількох можливих класів. Я не вірю, що я ніколи не мав жодного успіху, використовуючи Дерево рішень у режимі регресії (тобто постійний вихід, наприклад, ціна або очікуваний дохід від життя). Це не формальне або притаманне обмеження, а практичне. Здебільшого Дерева рішень використовуються для прогнозування факторів або дискретних результатів.
Погана роздільна здатність з постійними змінними очікуваннями
Знову ж таки, в принципі, нормально мати незалежні змінні, такі як "час завантаження" або "кількість днів з моменту попередньої онлайн-покупки" - просто змініть критерій розщеплення на дисперсію (зазвичай це інформаційна ентропія або домішка Джині для дискретних змінних), але в моїй досвід Дерева рішень рідко працюють у цьому випадку. Виняток становлять такі випадки, як "вік студента", який виглядає безперервним, але на практиці діапазон значень є досить малим (особливо, якщо вони повідомляються як цілі числа).
Тут є хороші відповіді, але я здивований, що одна річ не була наголошена. CART не робить жодних розподільних припущень щодо даних, зокрема змінної відповіді. На противагу цьому , МНК (для безперервних змінних відгуку) і логістичної регресії (для певних категоріальних змінних відгуку), наприклад, дійсно роблять сильні припущення; конкретно, регресія OLS передбачає, що відповідь умовно нормально розподіляється, а логістична передбачає, що відповідь є двочленною або багаточленною.
Відсутність таких припущень у CART - це меч з двома острими. Якщо ці припущення не є обґрунтованими, це надає підходу відносну перевагу. З іншого боку, якщо ці припущення виконані, з даних можна витягти більше інформації, враховуючи ці факти. Тобто, стандартні методи регресії можуть бути більш інформативними, ніж CART, коли припущення є істинними.