Яка краща функція витрат для випадкового лісового дерева: індекс Джині чи ентропія?


12

Яка краща функція витрат для випадкового лісового дерева: індекс Джині чи ентропія?

Я намагаюся реалізувати випадковий ліс у Clojure.

Відповіді:


9

Як я виявив у Вступі до обміну даними від Tan et. al:

Дослідження показали, що вибір міри домішки мало впливає на продуктивність алгоритмів індукції дерева рішень. Це тому, що багато заходів з домішками цілком відповідають один одному [...]. Дійсно, стратегія, що використовується для обрізки дерева, має більший вплив на остаточне дерево, ніж вибір міри домішки.

Тому ви можете використовувати індекс Джині, наприклад, CART або Entropy, як C4.5.

Я б використав Entropy, точніше коефіцієнт коефіцієнта посилення C4.5, оскільки ви можете легко дотримуватися добре написаної книги Quinlan: Програми C4.5 для машинного навчання.


3
Невелике зауваження - ентропія використовує журнали, що може бути проблемою для обчислень.

8
Це зауваження стосується чистих дерев рішень, але не випадкових лісів. Зазвичай ви не обрізаєте дерево у випадковому лісі, тому що не намагаєтесь побудувати найкраще дерево. Тому здається оманливим говорити про те, що важливіше: обрізка чи міра домішки. Мета - знайти найкраще дерево для використання у випадкових лісах.
Чан-Хо Су
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.