Відносини між KS, AUROC та Gini


11

Загальні статистичні дані валідації, такі як тест Колмогорова – Смірнова (KS), AUROC та коефіцієнт Джіні, є функціонально пов'язаними. Однак моє запитання стосується доведення того, як вони пов'язані між собою. Мені цікаво, чи хтось може допомогти мені довести ці стосунки. Мені нічого не вдалося знайти в Інтернеті, але мене просто щиро цікавить, як працюють докази. Наприклад, я знаю Джині = 2AUROC-1, але найкращий мій доказ включає вказівку на графік. Мене цікавлять офіційні докази. Будь-яка допомога буде дуже вдячна!


1
Під KS ви маєте на увазі статистику Колмогорова-Смірнова? AUROC - це, мабуть, площа під кривою ROC?
Нітеш

Здається, починаючи з Вікіпедії та переглядаючи оригінальні посилання, було б гарним місцем для початку.
LauriK

Відповіді:


1

Запис у Вікіпедії для характеристик приймача, що посилається на цей документ, на результат Gini = 2AUROC-1: Hand, David J .; і Тілл, Роберт Дж. (2001); Просте узагальнення площі під кривою ROC для задач класифікації декількох класів, Машинне навчання, 45, 171–186. Але я боюся, що я не маю легкого доступу до нього, щоб побачити, наскільки це близько до того, що ти хочеш.


1
... і це може бути марним результатом, оскільки Джині зазвичай застосовується до даних, що мають дві категоріальні маркування, тоді як AUROC застосовується до числових даних ранжування + двійкової мітки. Вони можуть збігатися, лише якщо ваш рейтинг є двійковим? в такому випадку не було б багато сенсу використовувати AUROC, тому що це 3-бальна крива з лише двома ступенями свободи ... (Я не перевіряв цього результату, занадто багато паперового спаму у Вікіпедії в ці дні)
Має QUIT - Anonymous-Mousse

0

Згідно з роботою (Adeodato, PJ L та Melo, SB 2016), існує лінійна залежність між Площиною під кривою KS (AUKS) та Площею під кривою ROC (AUROC), а саме:

АURОС=0,5+АUКS

Докази рівноваги містяться у статті.


0

Результат Джині = 2 * AUROC-1 важко довести, оскільки це не обов'язково істинно. Стаття у Вікіпедії про характеристичну криву приймача дає результат як визначення Джині, а стаття Hand and Till (цитується nealmcb) лише говорить, що графічне визначення Джині за допомогою кривої ROC призводить до цієї формули.

Проблема полягає в тому, що це визначення Джині використовується в машинобудівному та інженерному співтовариствах, але інше визначення використовується економістами та демографами (повертаючись до початкового документу Джині). Стаття у Вікіпедії про коефіцієнт Джині викладає це визначення на основі кривої Лоренца.

Стаття Шехтман & Шехтман (2016 г.) встановлює зв'язок між ППК і початковим визначенням Джині. Але, щоб побачити, що вони не можуть бути абсолютно однаковими, припустимо, що частка подій p і що у нас є ідеальний класифікатор. Крива ROC потім проходить через лівий верхній кут, а AUCROC дорівнює 1. Однак крива Лоренца (перевернута) крива Лоренца проходить від (0,0) до ( p , 1) до (1,1), а Джині економістів дорівнює 1 - p / 2, що майже, але не точно 1.

Якщо події рідкісні, то відносини Джині = 2 * AUROC-1 майже не є достовірними, використовуючи початкове визначення Джині. Ці відносини є справедливими лише в тому випадку, якщо Джині переосмислений, щоб зробити його справжнім.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.