Чому в якості оцінки використовувати нормований показник Джині замість AUC?


14

Конкуренція Kaggle Безпечний прогноз водія Porto Seguro використовує нормований показник Джині в якості метрики оцінювання, і це мене зацікавило причин такого вибору. Які переваги використання нормалізованої оцінки джині замість найбільш звичайних показників, таких як AUC, для оцінки?


1
На цю відповідь використовувався веб-сайт Kaggle: "Існує максимально досяжна площа для" ідеальної "моделі, оскільки не всі позитивні приклади виникають негайно. Ми використовуємо нормований коефіцієнт Джині, діливши коефіцієнт Джині вашої моделі на коефіцієнт Джині ідеальної моделі ". але він більше не доступний. webcache.googleusercontent.com/…
Sextus

1
Отже, джині - це просто аук в іншому масштабі. Або застосовуються аук і джині до різних кривих? Мені це не зрозуміло як не експерту з машинного навчання. Питання щодо цього не дуже зрозуміле.
Секст Емпірік

Відповіді:


3

gini=2×AUC1

6
Крім того, що за допомогою коефіцієнта джині встановлюється продуктивність випадкового класифікатора на бал 0 ... нормалізація "покращує" інший кінець шкали і робить результат досконалого класифікатора рівним 1, а не максимально досяжному AUC <1. Поліпшення є відносним лише залежно від того, чи вважаєте ви, що інтуїтивно зрозумілий масштаб хороший чи ні. Хоча поза цим простішим тлумаченням ви можете стверджувати, що це (нормалізація) також покращує узагальнення та порівняння різних наборів даних.
Секст Емпірік

Чому максимум досяжної AUC повинен бути меншим за 1, а також я не бачу, як джині встановлює його на 1?
rep_ho

Це залежить від того, за якою кривою вони обчислюють коефіцієнт джині. Можливо, вони використовують щось інше, ніж крива ROC (максимальна AUC дійсно була б 1). Зважаючи на слова на веб-сайті kaggle, мабуть правдоподібно, що максимум AUC не 1:> "Потім ми рухаємося зліва направо, запитуючи" У крайньому лівому х% даних, скільки накопиченої відповіді ви накопичили? "
Секст Емпірік

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.