Я вивчаю класифікаційні та регресійні дерева, і одним із заходів щодо місця розбиття є оцінка GINI.
Зараз я звик визначати найкраще розділене місце, коли журнал коефіцієнта ймовірності одних і тих же даних між двома розподілами дорівнює нулю, тобто ймовірність членства однаково вірогідна.
Моя інтуїція говорить про те, що повинен бути якийсь зв’язок, що GINI повинен мати добру основу в математичній теорії інформації (Шеннон), але я не розумію GINI достатньо добре, щоб сам виводити відносини.
Запитання:
- Яке виведення оцінки "домішок GINI" за першими принципами є мірою для розщеплення?
- Як оцінка GINI пов'язана з коефіцієнтом вірогідності й іншими інформаційно-теоретичними основами (ентропія Шеннона, pdf та перехресна ентропія - це частина)?
Список літератури:
- Як визначається зважений критерій Джині?
- Математика за деревами класифікації та регресії
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(додано) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurance
Ентропія Шеннона описується як:
Поширивши це на багатофакторний випадок, отримаємо:
Умовна ентропія визначається наступним чином:
Журнал співвідношення ймовірностей використовується для виявлення різких змін і виводиться з їх допомогою. (Я не маю походження перед собою.)
Домішки GINI:
- Загальна форма домішки GINI -
Думки:
- Розщеплення проводиться за мірою домішки. Висока «чистота», ймовірно, така ж, як і низька ентропія. Цей підхід, ймовірно, пов'язаний з мінімізацією ентропії.
- Цілком імовірно, що припущений розподіл основи є рівномірним або, можливо, з маханням рукою, гауссовим. Вони, ймовірно, роблять суміш розподілів.
- Цікаво, чи може тут застосовуватися виведення діаграми Шеуарта?
- Домішка GINI виглядає як інтеграл функції щільності ймовірності для біноміального розподілу з двома випробуваннями та одним успіхом.
(додатково)
- Форма також узгоджується з бета-біноміальним розподілом, який є кон'югатом, який є попереднім для гіпергеометричного розподілу. Гіпергеометричні тести часто використовуються для визначення того, які зразки розміщені над чи під представленими у вибірці. Існує також відношення до точного тесту Фішера, що б там не було (зверніть увагу на себе, дізнайтеся більше про це).
Редагувати: Я підозрюю, що існує форма GINI, яка дуже добре працює з цифровою логікою та / або деревами rb. Я сподіваюсь вивчити це у класному проекті цієї осені.