Який взаємозв'язок між оцінкою GINI та коефіцієнтом ймовірності ймовірності


21

Я вивчаю класифікаційні та регресійні дерева, і одним із заходів щодо місця розбиття є оцінка GINI.

Зараз я звик визначати найкраще розділене місце, коли журнал коефіцієнта ймовірності одних і тих же даних між двома розподілами дорівнює нулю, тобто ймовірність членства однаково вірогідна.

Моя інтуїція говорить про те, що повинен бути якийсь зв’язок, що GINI повинен мати добру основу в математичній теорії інформації (Шеннон), але я не розумію GINI достатньо добре, щоб сам виводити відносини.

Запитання:

  • Яке виведення оцінки "домішок GINI" за першими принципами є мірою для розщеплення?
  • Як оцінка GINI пов'язана з коефіцієнтом вірогідності й іншими інформаційно-теоретичними основами (ентропія Шеннона, pdf та перехресна ентропія - це частина)?

Список літератури:

Ентропія Шеннона описується як:

H(x)=ΣiP(xi)logbP(xi)

Поширивши це на багатофакторний випадок, отримаємо:

H(X,Y)=ΣxΣyP(x,y)logbP(x,y)

Умовна ентропія визначається наступним чином:

H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,H(X|Y)=H(X,Y)H(Y)

Журнал співвідношення ймовірностей використовується для виявлення різких змін і виводиться з їх допомогою. (Я не маю походження перед собою.)

Домішки GINI:

  • Загальна форма домішки GINI -Я=i=1мfi(1-fi)

Думки:

  • Розщеплення проводиться за мірою домішки. Висока «чистота», ймовірно, така ж, як і низька ентропія. Цей підхід, ймовірно, пов'язаний з мінімізацією ентропії.
  • Цілком імовірно, що припущений розподіл основи є рівномірним або, можливо, з маханням рукою, гауссовим. Вони, ймовірно, роблять суміш розподілів.
  • Цікаво, чи може тут застосовуватися виведення діаграми Шеуарта?
  • Домішка GINI виглядає як інтеграл функції щільності ймовірності для біноміального розподілу з двома випробуваннями та одним успіхом. П(х=к)=(21)p(1-p)

(додатково)

  • Форма також узгоджується з бета-біноміальним розподілом, який є кон'югатом, який є попереднім для гіпергеометричного розподілу. Гіпергеометричні тести часто використовуються для визначення того, які зразки розміщені над чи під представленими у вибірці. Існує також відношення до точного тесту Фішера, що б там не було (зверніть увагу на себе, дізнайтеся більше про це).

Редагувати: Я підозрюю, що існує форма GINI, яка дуже добре працює з цифровою логікою та / або деревами rb. Я сподіваюсь вивчити це у класному проекті цієї осені.


1
Це проблематично, якщо я відповідаю на власне запитання?
EngrStudent

1
Ні, зовсім ні. Якщо ви придумали те, що, на вашу думку, є розумною відповіддю, звільніть.
gung - Відновити Моніку

@EngrStudent. гарне запитання, але перше посилання, яке ви надаєте у розділі посилань, стосується коефіцієнта Джині, який не має нічого спільного з мірою Джині, що використовується у КАРТІ
Антуан

Щодо індексу Джині я щойно опублікував просту інтерпретацію: stats.stackexchange.com/questions/308885/…
Picaud Vincent

Відповіді:


11

Я буду використовувати ті самі позначення, які я використовував тут: Математика за деревами класифікації та регресії

Критерії розщеплення, засновані на домішках, є Джині та приріст інформації ( ). Єдина різниця полягає у домішці функції :IЯГЯ

  1. Джині:Гiнi(Е)=1-j=1cpj2
  2. Ентропія:Н(Е)=-j=1cpjжурналpj

Вони насправді є окремими значеннями більш загальної міри ентропії (Ентропії Цалліса), параметризованої в :β

Нβ(Е)=1β-1(1-j=1cpjβ)

Джині отримується з а з .β=2Нβ1

Імовірність журналу, яка також називається -статистичною, є лінійною трансформацією посилення інформації:Г

Г-статистичний=2|Е|ЯГ

Залежно від спільноти (статистики / обміну даними) люди віддають перевагу одному чи іншим заходам ( тут пов'язане питання ). Вони можуть бути набагато еквівалентними в процесі індукції дерева рішень. Імовірність журналу може дати більш високі бали для збалансованих розділів, коли існує багато класів [Технічна примітка. Брейман 1996].

Джині Гейн може бути приємнішим, оскільки він не має логарифмів, і ви можете знайти закриту форму для її очікуваного значення та дисперсії за припущенням випадкового розбиття [Алін Добра, Йоханнес Герке: Корекція зміщення в побудові класифікаційного дерева. ICML 2001: 90-97]. Це не так просто для отримання інформації (якщо вас цікавить, дивіться тут ).


1

Гарне питання. На жаль, у мене ще недостатньо репутації, щоб підтвердити або прокоментувати, тому відповідайте замість цього!

Я не дуже знайомий з тестом на співвідношення, але мені вражає, що це формалізм, який використовується для порівняння ймовірності даних, що виникають з двох (або більше) різних розподілів, тоді як коефіцієнт Джині є підсумковою статистикою одного розподілу.

Корисним способом мислити коефіцієнт Джіні (ІМО) є площа під кривою Лоренца (пов'язана з cdf).

Можливо, можна порівняти ентропію Шеннона з Джині, використовуючи визначення, задане в ОП для ентропії:

Н=ΣiП(хi)журналбП(хi)

та визначення Джині:

Г=1-1мкΣiП(хi)(Si-1+Si) , де

x iSi=Σj=1iП(хi)хi (тобто середнє значення сукупності до ).хi

Це не схоже на легке завдання!


Коефіцієнт вірогідності журналу керується тими ж даними. Один з розподілів може мати таку ж загальну форму, як і інший, але його параметри підходили до даних, коли якийсь інший критерій був істинним. Наприклад, у вас може бути один розподіл, параметри якого описують здорову зміну виробничого процесу (не обов'язково гауссова), а інший, який підходить до поточних значень виробничого процесу, і працює як на поточних значеннях виробничого процесу, порівнюючи коефіцієнт ймовірності журналу з пороговим значенням, що вказує можливість екскурсії. Його можна порівняти з ідеальним.
EngrStudent
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.