Коли використовувати домішки Джині і коли використовувати інформаційний приріст?


11

Може хтось, будь ласка, пояснить мені, коли слід використовувати домішки Джині та отримання інформації для дерев рішень? Чи можете ви надати мені ситуації / приклади, коли найкраще використовувати який?

Відповіді:


9

Ви повинні спробувати їх як частину настройки параметрів.

Теоретично домішка Джині мінімізує показник Brier, тоді як ентропія / посилення інформації мінімізує втрати журналу, тому хто з тих, хто вас цікавить, має певну різницю. Однак інші речі, як, напевно, кожен може виявити багатоваріантний вплив на ріст жадібних дерев, а не «відволікатися» на одноманітні, які також грають на речі. Тобто ви можете отримати краще узагальнення з домішкової метрики, яка не завжди вибирає "найкращий" розкол.

На практиці (в контексті rf, більше ніж кошик) я виявив, що ентропія працює краще для більш чистих наборів даних низьких розмірів, де ви намагаєтеся якнайменше підігнати більш складний сигнал, тоді як джині краще працює для галасливих, високомірних ті, де ваша спроба розкрити простий сигнал серед багатьох галасливих потенційних сигналів. Це лише мій досвід, і майже напевно не витримає у всіх випадках.

Примітка: розпочато як коментар, але видалено та переміщено до відповіді для форматування розширення для речей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.