Я перелічу деякі властивості та пізніше дам вам оцінку того, на що його варто:
- CHAID за замовчуванням використовує багатошляхові розбиття (багатопотокові розбиття означають, що поточний вузол розділений на більш ніж два вузли). Це може бути, а може і не бажати (це може призвести до кращих сегментів або простішої інтерпретації). Однак це, безумовно, дозволяє зменшити розмір зразка у вузлах і, таким чином, призвести до менш глибоких дерев. Якщо використовувати його для цілей сегментації, це може призвести до негайного випробування, оскільки CHAID потребує великих розмірів вибірки, щоб добре працювати. CART робить двійкові розбиття (кожен вузол розділений на два дочірні вузли) за замовчуванням.
- CHAID призначений для роботи з категоричними / дискретизованими цілями (XAID був для регресії, але, можливо, вони були об'єднані з тих пір). CART напевно може зробити регресію та класифікацію.
- CHAID використовує ідею попередньої обрізки . Вузол розбивається лише тоді, коли виконується критерій значущості. Це пов'язане з вищезазначеною проблемою, що потребує великих розмірів вибірки, оскільки тест Chi-Square має лише невелику потужність у малих зразках (що ефективно ще більше зменшується за допомогою корекції Бонферроні для багаторазового тестування). КАРТКА з іншого боку вирощує велике дерево, а потім порізає дерево назад до меншої версії.
- Таким чином, CHAID намагається запобігти надмірному облаштуванню з самого початку (лише розкол є значна асоціація), тоді як CART може легко переробляти, якщо дерево не буде обрізане назад. З іншого боку, це дозволяє CART виконувати кращі показники, ніж CHAID у та поза вибіркою (для заданої комбінації параметрів настройки).
- Найважливіша відмінність, на мою думку, полягає в тому, що вибір розділених змінних та розділених точок у CHAID менш сильно заплутаний, як у CART . Це в значній мірі не має значення, коли дерева використовуються для прогнозування, але є важливим питанням, коли дерева використовуються для інтерпретації: Дерево, яке має ці дві частини алгоритму, дуже збентежене, як вважається, "упереджене в змінній селекції" (невдале ім'я) . Це означає, що розділений вибір змінних віддає перевагу змінним з багатьма можливими розбиттями (скажімо, метричні провідники). CART дуже "упереджений" в цьому сенсі, CHAID не так сильно.
- З сурогатними розщепленнями CART знає, як поводитися з пропущеними значеннями (сурогатні розбиття означають, що з відсутніми значеннями (NA) для змінних прогнозованого алгоритму алгоритм використовує інші змінні предиктора, які не такі «хороші», як первинна роздільна змінна, але імітують розбиття, отримані первинною спліттер). У ЧАЙДА такого афаїка немає.
Тож залежно від того, що вам потрібно, я б запропонував використовувати CHAID, якщо зразок певного розміру і аспекти інтерпретації є більш важливими. Крім того, якщо бажано розщепитись на багатоповерхових шпальтах або на менших деревах, ЦІД краще. CART з іншого боку, є добре працюючою машиною прогнозування, тому якщо передбачення є вашою метою, я б пішов на CART.