CHAID проти CRT (або CART)

Я використовую класифікацію дерева рішень за допомогою SPSS для набору даних, що містить близько 20 прогнокторів (категоричний з кількома категоріями). CHAID (Chi-квадрат автоматичного виявлення взаємодії) та CRT / CART (дерева класифікації та регресії) дають мені різні дерева. Чи може хтось пояснити відносні достоїнства CHAID проти CRT? Які наслідки використання одного методу над іншим?

spss cart

— Плацидії
джерело

Я перелічу деякі властивості та пізніше дам вам оцінку того, на що його варто:

CHAID за замовчуванням використовує багатошляхові розбиття (багатопотокові розбиття означають, що поточний вузол розділений на більш ніж два вузли). Це може бути, а може і не бажати (це може призвести до кращих сегментів або простішої інтерпретації). Однак це, безумовно, дозволяє зменшити розмір зразка у вузлах і, таким чином, призвести до менш глибоких дерев. Якщо використовувати його для цілей сегментації, це може призвести до негайного випробування, оскільки CHAID потребує великих розмірів вибірки, щоб добре працювати. CART робить двійкові розбиття (кожен вузол розділений на два дочірні вузли) за замовчуванням.
CHAID призначений для роботи з категоричними / дискретизованими цілями (XAID був для регресії, але, можливо, вони були об'єднані з тих пір). CART напевно може зробити регресію та класифікацію.
CHAID використовує ідею попередньої обрізки . Вузол розбивається лише тоді, коли виконується критерій значущості. Це пов'язане з вищезазначеною проблемою, що потребує великих розмірів вибірки, оскільки тест Chi-Square має лише невелику потужність у малих зразках (що ефективно ще більше зменшується за допомогою корекції Бонферроні для багаторазового тестування). КАРТКА з іншого боку вирощує велике дерево, а потім порізає дерево назад до меншої версії.
Таким чином, CHAID намагається запобігти надмірному облаштуванню з самого початку (лише розкол є значна асоціація), тоді як CART може легко переробляти, якщо дерево не буде обрізане назад. З іншого боку, це дозволяє CART виконувати кращі показники, ніж CHAID у та поза вибіркою (для заданої комбінації параметрів настройки).
Найважливіша відмінність, на мою думку, полягає в тому, що вибір розділених змінних та розділених точок у CHAID менш сильно заплутаний, як у CART . Це в значній мірі не має значення, коли дерева використовуються для прогнозування, але є важливим питанням, коли дерева використовуються для інтерпретації: Дерево, яке має ці дві частини алгоритму, дуже збентежене, як вважається, "упереджене в змінній селекції" (невдале ім'я) . Це означає, що розділений вибір змінних віддає перевагу змінним з багатьма можливими розбиттями (скажімо, метричні провідники). CART дуже "упереджений" в цьому сенсі, CHAID не так сильно.
З сурогатними розщепленнями CART знає, як поводитися з пропущеними значеннями (сурогатні розбиття означають, що з відсутніми значеннями (NA) для змінних прогнозованого алгоритму алгоритм використовує інші змінні предиктора, які не такі «хороші», як первинна роздільна змінна, але імітують розбиття, отримані первинною спліттер). У ЧАЙДА такого афаїка немає.

Тож залежно від того, що вам потрібно, я б запропонував використовувати CHAID, якщо зразок певного розміру і аспекти інтерпретації є більш важливими. Крім того, якщо бажано розщепитись на багатоповерхових шпальтах або на менших деревах, ЦІД краще. CART з іншого боку, є добре працюючою машиною прогнозування, тому якщо передбачення є вашою метою, я б пішов на CART.

— Момо
джерело

(+1). Приємний огляд. Чи можете ви пояснити, що таке "багатошляхові розколи" та "сурогатні розколи"? Чи є багатошляхові розколи, якщо розколи не є дихотомічними?

— COOLSerdash

@Momo: Дуже дякую за оновлену відповідь. Щодо багатошляхових розщеплень, я знайшов наступне цікаве твердження від Hastie et al. (2013) Елементи статистичного навчання : "[...] Хоча це [багатошляхові розколи] іноді можуть бути корисними, це не є хорошою загальною стратегією. [...] Оскільки багатопроменевий розкол може бути досягнутий рядом двійкових. розколи, переважні останні ". Цікаво, чи справді це так точно, як вони заявляють (я не дуже досвідчений в машинному навчанні), але з іншого боку, їхня книга вважається довідковою.

— COOLSerdash

Так, серія двійкових розщеплень може бути такою ж, як і багатошляхові. Вони також можуть бути різними. Я схильний погоджуватися з твердженням. Ще одне, що слід зазначити, це те, що пошук розділених точок із вичерпним пошуком алгоритмічно простіший та швидший для двійкових розбитків даного вузла.

— Момо

Дуже повна відповідь. Я використовував CHAID в реазері з більш ніж 100 000 баз даних. На цьому рівні класифікація дуже точна, але я рекомендую спробувати кілька разів з різною кількістю розділів та менш глибоких рівнів дерева (програмне забезпечення SPSS дозволяє визначити ці параметри раніше). Це тому, що CHAID генерує дерева класифікацій з кількома групами (мультиспліт) і набагато гірше, якщо база даних велика. Остаточне дерево може бути величезним. Нарешті, не забудьте скористатися "внутрішнім контролем" поділу вибірки бази даних. Дивіться також Посібник з класифікації дерев SPSS, доступний на сайті goo

— user35523

Що щодо QUEST ??

— Мадху Сарін

Усі методи одного дерева включають приголомшливу кількість численних порівнянь, які приносять велику нестабільність результату. Ось чому для досягнення задовільної передбачувальної дискримінації необхідна деяка форма усереднення дерев (випалювання дерев, буріння, випадкові ліси) (за винятком того, що ви втрачаєте перевагу дерев - інтерпретацію). Простота одиночних дерев багато в чому ілюзія. Вони прості, тому що вони помиляються в тому сенсі, що навчання дерева декільком великим підмножинам даних виявить велику розбіжність між структурами дерев.

Я не розглядав жодних останніх методологій CHAID, але CHAID у своєму первісному втіленні був чудовою вправою в інтерпретації даних.

— Френк Харрелл
джерело