Коли я повинен використовувати домішки Джині на відміну від збільшення інформації?


66

Чи може хтось практично пояснити обґрунтування нечистоти Джині проти отримання інформації (на основі ентропії)?

Який показник краще використовувати в різних сценаріях під час використання дерев рішень?


5
@ Anonymous-Mousse Я думаю, що це було очевидно перед вашим коментарем. Питання не в тому, чи мають обоє свої переваги, а в тому, в яких сценаріях один краще, ніж інший.
Мартін Тома

Я запропонував "Інформаційний приріст" замість "Ентропія", оскільки він є досить близьким (ІМХО), як зазначено у відповідних посиланнях. Потім питання було задано в іншій формі в розділі Коли використовувати домішки Джині та коли використовувати інформаційний приріст?
Лоран Дюваль

1
Я розмістив тут просту інтерпретацію домішок Джині, яка може бути корисною.
Піко Вінсент

Відповіді:


47

Домішки Джині та Ентропія збільшення інформації майже однакові. І люди ціннісно використовують значення. Нижче наведені формули обох:

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

Враховуючи вибір, я використовував би домішки Джині, оскільки це не вимагає від мене обчислення логарифмічних функцій, які обчислювально інтенсивно. Можна також знайти закриту форму рішення.

Який показник краще використовувати в різних сценаріях під час використання дерев рішень?

З домішок, зазначених вище, домішка Джині.

Отже, вони майже однакові, що стосується аналітики CART.

Корисна довідка для обчислювального порівняння двох методів


1
Так часто зустрічається формула ентропії, тоді як те, що реально використовується в дереві рішень, виглядає як умовна ентропія. Я думаю, що це важлива відмінність чи щось мені не вистачає?
користувач1700890

@ user1700890 Алгоритм ID3 використовує інформацію. посилення ентропії. Мені потрібно прочитати про умовну ентропію. Можливо, поліпшення в порівнянні з ID3 :)
Dawny33

1
Я думаю, що ваше визначення gini impurtiy може бути неправильним: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurance
Мартін Тома

22

Як правило, ваша продуктивність не зміниться, використовуєте ви домішки Джині або Ентропію.

Лора Олена Райлеану та Кіліан Стоффель порівнювали обидва в " Теоретичному порівнянні між індексом Джині та критеріями інформаційної привабливості ". Найважливішими зауваженнями були:

  • Має значення лише у 2% випадків, використовуєте ви домішки джині чи ентропію.
  • Ентропія може бути трохи повільнішою для обчислення (оскільки вона використовує логарифм).

Мені одного разу сказали, що обидві метрики існують, оскільки вони з'явилися в різних наукових дисциплінах.


16

Для випадку змінної з двома значеннями, що з’являється з дробами f та (1-f),
gini та ентропія задаються:
gini = 2 * f (1-f)
ентропія = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Ці заходи дуже схожі, якщо їх масштабувати до 1,0 (графік 2 * джині та ентропія / ln (2)):

Значення Джині (y4, фіолетовий) та Ентропія (y3, зелений) масштабуються для порівняння


14

Джині призначений для безперервних атрибутів, а Ентропія - для атрибутів, які зустрічаються в класах

Джині - мінімізувати помилкову класифікацію.
Ентропія призначена для дослідницького аналізу

Ентропія обчислюється трохи повільніше


7

Щоб додати той факт, що є більш-менш однакові, врахуйте також той факт, що: так, що: Дивіться наступний сюжет двох функції нормалізовані, щоб отримати максимальне значення 1: червона крива для Джині, а чорна - для ентропії.

0<u<1,log(1u)=uu2/2u3/3+0<p<1,log(p)=p1(1p)2/2(1p)3/3+
0<p<1,plog(p)=p(1p)+p(1p)2/2+p(1p)3/3+
Нормалізовані критерії Джині та Ентропії

Зрештою, як пояснив @NIMISHAN, Джині більше підходить для мінімізації неправильної класифікації, оскільки вона симетрична до 0,5, тоді як ентропія призведе до більш низьких санкцій малих вірогідностей.


3

Ентропія займає трохи більше часу на обчислення, ніж індекс Джині через обчислення журналу, можливо, саме тому Gini Index став варіантом за замовчуванням для багатьох алгоритмів ML. Але, від Tan et et. al book Вступ до обміну даними

"Міра домішок цілком відповідає одна одній ... Дійсно, стратегія, що застосовується для обрізки дерева, має більший вплив на остаточне дерево, ніж вибір міри домішки".

Отже, схоже, що вибір міри домішки мало впливає на продуктивність алгоритмів дерева єдиного рішення.

Також. "Метод Джині працює лише тоді, коли цільова змінна є бінарною змінною." - Навчання прогнозній аналітиці з Python.


3

Я робив оптимізацію бінарної класифікації протягом минулого тижня +, і в кожному випадку ентропія значно перевершує джині. Це може бути конкретним набором даних, але, здавалося б, спроба обох під час настройки гіперпараметрів є раціональнішим вибором, а не робити припущення щодо моделі заздалегідь.

Ніколи не знаєш, як будуть реагувати дані, поки ти не заведеш статистику.


0

Відповідно до принципу парсиментації, Джіні перевершує ентропію за легкістю обчислень (у журналі очевидно, що в ньому пов'язано більше обчислень, а не просто множення на рівні процесор / машина).

Але ентропія, безумовно, має перевагу в деяких випадках, пов'язаних з даними, пов'язаними з високим дисбалансом.

Оскільки ентропія використовує журнал ймовірностей і множиться на ймовірності події, то, що відбувається на тлі, значення менших ймовірностей збільшуються.

Якщо ваш розподіл ймовірностей даних є експоненціальним або Лаплас (як у випадку глибокого навчання, де нам потрібен розподіл ймовірностей в різкій точці), ентропія перевершує Джині.

Наведіть приклад, якщо у вас є 2 події, одна ймовірність .01 та інші .99 ймовірність.

У Gini Prob sq буде .01 ^ 2 + .99 ^ 2, .0001 + .9801 означає, що менша ймовірність не грає ніякої ролі, оскільки все регулюється більшістю ймовірностей.

Тепер у випадку ентропії .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 зараз у цьому випадку чітко видно, що менші ймовірності отримують кращий ваговий вік.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.