Коефіцієнт Джині проти домішок Джині - дерева рішень


25

Проблема стосується побудови дерев рішень. Згідно з Вікіпедією, « коефіцієнт Джіні » не слід плутати з « домішкою Джині ». Однак обидва заходи можуть бути використані при складанні дерева рішень - вони можуть підтримувати наш вибір при розділенні набору елементів.

1) "домішка Джині" - це стандартна метрика поділу дерева рішень (див. За посиланням вище);

2) "Коефіцієнт Джині" - кожне розщеплення може бути оцінене на основі критерію AUC. Для кожного сценарію розщеплення ми можемо побудувати криву ROC та обчислити показник AUC. За Вікіпедією AUC = (GiniCoeff + 1) / 2;

Питання: чи обидва ці заходи рівнозначні? З одного боку, мені відомо, що коефіцієнт Джіні не слід плутати з домішкою Джині. З іншого боку, обидва ці заходи можуть бути використані, якщо робити одне і те ж - оцінювати якість розбиття дерева рішень.


Я прийшов до цього питання, шукаючи визначення: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurance
Мартін Тома

Відповіді:


28

Ні, незважаючи на свої назви, вони не рівнозначні або навіть подібні.

  • Домішка Джині - це міра неправильної класифікації, яка застосовується в контексті класифікатора багатокласового.
  • Коефіцієнт Джині застосовується до двійкової класифікації та вимагає класифікатора, який може певним чином класифікувати приклади відповідно до ймовірності потрапляння в позитивний клас.

І те й інше можна застосувати в деяких випадках, але вони є різними заходами для різних речей. Домішки - це те, що зазвичай використовується в деревах рішень .


7

Я взяв приклад даних з двома людьми A і B з багатством одиниці 1 і блоку 3 відповідно. Домішки Джині згідно Вікіпедії = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Коефіцієнт Джині згідно Вікіпедії буде співвідношенням площі між червоною та синьою лінією до загальної площі під синьою лінією на наступному графіку

введіть тут опис зображення

Площа під червоною лінією становить 1/2 + 1 + 3/2 = 3

Загальна площа під синьою лінією = 4

Отже коефіцієнт Джині = 3/4

Очевидно, що два числа різні. Я перевірю більше випадків, щоб побачити, чи вони пропорційні чи є точне співвідношення, і відредагую відповідь.

Редагувати: Я перевіряв і інші комбінації, співвідношення не є постійним. Нижче перелік кількох комбінацій, які я спробував. введіть тут опис зображення


Яке пояснення !!
Outlier

0

Я думаю, що вони обоє представляють одну концепцію.

У класифікаційних деревах індекс Джині використовується для обчислення домішок розділу даних. Отже, припустимо, що розділ D містить 4 класи з однаковою ймовірністю. Тоді індекс Джині (домішка Джині) буде: Джині (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

У CART ми виконуємо двійкові розщеплення. Отже, індекс Джині буде обчислюватися як зважена сума отриманих розділів, і ми виберемо розбиття з найменшим індексом джині.

Тож використання домішок Джині (індекс Джині) не обмежується бінарними ситуаціями.

Іншим терміном для домішок Джині є коефіцієнт Джині, який зазвичай використовується як міра розподілу доходу.


3
Коефіцієнт Джині не є домішкою Джині. Дивіться посилання у питанні
Шон Оуен

2
Вікіпедія не завжди є надійним джерелом інформації :-)
Пасмод Тюрінг

2
Звичайно. Подивіться це десь інше: mathworld.wolfram.com/GiniCoefficient.html Що змушує вас вважати коефіцієнт Джині = домішка Джині?
Шон Оуен


1
Я думаю, що ми говоримо про дерева рішень. Отже ми в області машинного навчання! Прочитайте уважніше питання
Пасмод Тюрінг,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.