Як вибирається точка розщеплення для безперервних змінних у деревах рішень?


15

У мене є два питання, пов'язані з деревами рішень:

  1. Якщо у нас є безперервний атрибут, як ми обираємо значення розбиття?

    Приклад: Вік = (20,29,50,40 ....)

  2. Уявіть собі , що ми маємо безперервний атрибут , які мають значення в . Як я можу написати алгоритм, який знаходить точку розщеплення , щоб, коли ми розділили на , у нас був мінімальний коефіцієнт посилення для ?fRvfvf>v

Відповіді:


18

Для того, щоб створити точку розщеплення, значення сортують, а середні точки між сусідніми значеннями оцінюють за деякими метричними, як правило, збільшенням інформації або домішками джині. Для вашого прикладу скажімо, що у нас є чотири приклади, а значення вікової змінної . Середні точки між значеннями оцінюються, і залежно від того, який розбіг дає найкращий приріст інформації (або будь-який показник, який ви використовуєте) на даних тренувань.(20,29,40,50)(24.5,34.5,45)

Ви можете заощадити деякий час обчислення, лише перевіривши розділені точки, що лежать між прикладами різних класів, оскільки лише ці розбиття можуть бути оптимальними для отримання інформації.


@timleathart ОП розраховує на "годування ложкою" впровадження в Р. Цікаво, що ОП намагалася до цього часу з посиланням на реалізацію R? Як щодо "виявлення певних зусиль", ОП?
mnm

@timleathart, але нормально для аттрибуту f, ми вибираємо спліт v, який дає найбільший інформаційний приріст для f> v, але тут подивимось на питання, яке вони попросили мінімальний приріст.
WALID BELRHALMIA

@timleathart, Чи можете ви пояснити більше? Мені потрібно знати найкраще оптимізований спосіб ідентифікації таких розбитків та перевірки на отримання інформації. Скажімо, одна змінна має багато варіацій, а інша майже константна. Скільки таких розщеплених має бути?
Arpit Sisodia

@timeleathart, розширюючи відповідь ур, цей розкол не буде оптимізований, коли значення (20,21,22,23, 45,67,80). тут не можна використовувати від мінімуму до максимальної ітерації? Будь ласка, виправте мене, якщо я помиляюся у своїх припущеннях :)
Arpit Sisodia

Це пояснює мої плутанини!
Цзіньхуа Ван
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.