Чи є дерева рішень майже завжди бінарними деревами?


21

Майже кожен приклад дерева, який я зустрічав, є двійковим деревом. Це досить універсально? Чи підтримують більшість стандартних алгоритмів (C4.5, CART тощо) лише бінарні дерева? З того, що я збираю, CHAID не обмежується двійковими деревами, але це, здається, є винятком.

Двосторонній розкол з наступним двостороннім розщепленням на одного з дітей - це не те саме, що окремий тристоронній розкол. Це може бути академічним моментом, але я намагаюся переконатися, що я розумію найпоширеніші випадки використання.

Відповіді:


18

Це в основному технічне питання: якщо ви не обмежуєтесь двійковим вибором, просто є занадто багато можливостей для наступного розколу на дереві. Тож ви безумовно праві в усіх питаннях, викладених у вашому запитанні.

Пам’ятайте, що більшість алгоритмів типу дерев працюють поступово і навіть не є гарантованими найкращими результатами. Це лише один додатковий застереження.

Для більшості практичних цілей, хоча і не під час побудови / обрізки дерева, два види розщеплення рівноцінні, хоча, враховуючи, що вони з’являються відразу один за одним.


Тільки для посилення вашого першого пункту: кількість можливих розщеплень зростає в експоненціальному масштабі. Якщо ви розділяєте на безперервну змінну, яка має 1000 чітких значень, існує 999 двійкових розбитків, але 999 * 998 тринаціональних розщеплення.
Пітер Флом - Відновити Моніку

2
@Peter Є потрійних шпагату,самому ділі. (1000-13-1)=999 рік998/2
whuber

5

Двосторонній розкол з наступним двостороннім розколом на одного з дітей - це не те саме, що окремий тристоронній розкол

Я не впевнений, що ви тут маєте на увазі. Будь-який багатосторонній розкол може бути представлений у вигляді серії двосторонніх розщеплень. Для тристороннього розбиття ви можете розділити на A, B і C, спочатку розділившись на A&B проти C, а потім розділивши A на B.

Даний алгоритм може не вибрати саме цю послідовність (особливо, як, як і більшість алгоритмів, він жадібний), але, безумовно, міг би. І якщо якісь рандомізації або поетапні процедури проводяться, як у випадкових лісах або підсилених деревах, шанси знайти правильну послідовність розщеплень зростають. Як зазначали інші, багатосторонні розщеплення обчислювально дорогі, тому, враховуючи ці альтернативи, більшість дослідників, здається, обрали двійкові розщеплення.

Сподіваюся, це допомагає


3
Так, я розумію, що A, B і C можна досягти, поділившись спочатку на A&B проти C, а потім розділивши A на B. Моя думка справді полягала в тому, що заданий алгоритм може не вибрати саме цю послідовність.
Майкл МакГоуан

2

Що стосується використання дерева рішень та розщеплення (бінарного порівняно з іншим), я знаю лише CHAID, який має небінарні розбиття, але є ймовірні й інші. Для мене головне використання не бінарного розколу полягає у вправах з вибору даних, де я розглядаю, як оптимально поєднати номінальну змінну з багатьма рівнями. Серія двійкових розбитків не така корисна, як групування, здійснене CHAID.


Дуже смішно, що ви згадали про бінінг, тому що думка про бінінг - це те, що змусило мене задуматися над цим питанням (хоча я думав про бінінг числових змінних, а не номінальних змінних).
Майкл МакГоуан

@Michael, Так, це теж працює, але ви викидаєте інформацію. Я використовую його, коли мені потрібно поєднувати рідкісні рівні номінальної змінної - коли остаточне моделювання буде виконано без підходу до типу дерева (скажімо, логістична регресія або SVM та багато
мізерних

0

Будь ласка, прочитайте це

З практичних причин (комбінаторний вибух) більшість бібліотек реалізують дерева рішень з двійковими розколами. Приємно те, що вони незавершені (Hyafil, Laurent, Ronald L. Rivest. "Побудова оптимальних дерев бінарних рішень не є повною. NP-Letters 5.1 (1976): 15-17.)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.