Якщо ви вирощуєте повноцінне дерево, найкраще перше (на листочках) і глибинне перше (рівневе) призведе до того ж дерева. Різниця полягає в тому , в якому порядку дерево розгортається. Оскільки ми зазвичай не вирощуємо дерева на повну глибину, порядок має значення: застосування критеріїв ранньої зупинки та методів обрізки може призвести до дуже різних дерев. Оскільки аргументи з вибору листя розбиваються на основі їхнього внеску в глобальний збиток, а не лише втрати на певній гілці, вони часто (не завжди) дізнаються дерева з меншими помилками «швидше», ніж рівні. Тобто для невеликої кількості вузлів, листяні мудрі, ймовірно, будуть виконувати рівні показники. Коли ви додасте більше вузлів, не зупиняючись і не обрізаючи, вони збігатимуться до тієї ж продуктивності, оскільки вони з часом буквально будуватимуть одне дерево.
Довідка:
Ши, Х. (2007). Навчання з дерева найкращих перших рішень (дисертація, магістр наук). Університет Вайкато, Гамільтон, Нова Зеландія. Отримано з https://hdl.handle.net/10289/2317
EDIT: Що стосується вашого першого запитання, C4.5 і CART - це перші приклади глибини, а не найкращі перші. Ось якийсь відповідний вміст із посилання вище:
1.2.1 Стандартні дерева рішень
Стандартні алгоритми, такі як C4.5 (Quinlan, 1993) та CART (Breiman et al., 1984) для індукції дерев рішень згори вниз, розширюють вузли в першому порядку глибиною на кожному кроці, використовуючи стратегію ділення та перемоги. Зазвичай у кожному вузлі дерева рішень тестування включає лише один атрибут, а значення атрибута порівнюється з константою. Основна ідея дерев стандартних рішень полягає в тому, що спочатку виберіть атрибут, який слід розмістити в кореневому вузлі, і зробіть деякі гілки для цього атрибута на основі деяких критеріїв (наприклад, інформація або індекс Джині). Потім розділіть навчальні екземпляри на підмножини, по одному для кожної гілки, що відходить від кореневого вузла. Кількість підмножин така ж, як кількість гілок. Потім цей крок повторюється для обраної гілки, використовуючи лише ті екземпляри, які насправді її досягають. Фіксоване замовлення використовується для розширення вузлів (як правило, зліва направо). Якщо в будь-який час усі екземпляри у вузлі мають однакову мітку класу, яка відома як чистий вузол, розділення зупиняється і вузол перетворюється на термінальний вузол. Цей процес побудови триває, поки всі вузли не стануть чистими. Потім проводиться процес обрізки для зменшення надлишкової кількості (див. Розділ 1.3).
1.2.2 Дерева найкращого першого рішення
Іншою можливістю, яка поки що, як уявляється, була оцінена лише в контексті алгоритмів підвищення (Friedman et al., 2000), є розширення вузлів у кращому першому порядку замість фіксованого порядку. Цей метод додає «найкращий» розділений вузол до дерева на кожному кроці. "Найкращий" вузол - це вузол, який максимально зменшує домішки між усіма вузлами, доступними для розщеплення (тобто не позначені як кінцеві вузли). Хоча це призводить до того ж повністю вирощеного дерева, що і стандартне розширення глибини, це дозволяє нам дослідити нові методи обрізки дерев, які використовують перехресну перевірку для вибору кількості розширень. Як попередню обрізку, так і після обрізки можна виконати таким чином, що забезпечує справедливе порівняння між ними (див. Розділ 1.3).
Дерева найкращих перших рішень будуються поділом і перемагайте подібно до стандартних дерев перших рішень по глибині. Основна ідея того, як будується найкраще перше дерево, полягає в наступному. Спочатку виберіть атрибут, який слід розмістити в кореневому вузлі, і зробіть деякі гілки для цього атрибута на основі деяких критеріїв. Потім розділіть навчальні екземпляри на підмножини, по одному для кожної гілки, що відходить від кореневого вузла. У цій тезі розглядаються лише дерева бінарних рішень, і таким чином кількість гілок рівно дві. Потім цей крок повторюється для обраної гілки, використовуючи лише ті екземпляри, які насправді її досягають. На кожному кроці ми вибираємо "найкраще" підмножину серед усіх підмножин, доступних для розширень. Цей процес побудови триває до тих пір, поки всі вузли не стануть чистими або не буде досягнуто певної кількості розширень. Фігура 1. 1 показана різниця в розділеному порядку між гіпотетичним бінарним найкращим першим деревом та гіпотетичним бінарним глибиною першого дерева. Зауважте, що для найкращого першого дерева можуть бути обрані інші замовлення, в той час як замовлення завжди однакове в першому випадку.