AIC та c-статистика намагаються відповісти на різні запитання. (Також в останні роки піднімалися деякі проблеми з c-статистикою, але я буду розглядати це як осторонь)
Грубо кажучи:
- AIC повідомляє про те, наскільки ваша модель підходить для конкретної вартості неправильної класифікації.
- AUC повідомляє про те, наскільки добре буде працювати ваша модель в середньому за всіх помилкових витрат.
Коли ви розраховуєте AIC, ви вважаєте, що ваш логіст дає прогноз, скажімо, 0,9, як прогноз 1 (тобто швидше 1, ніж 0), однак це не повинно бути. Ви можете взяти свій логістичний бал і сказати: "все вище 0,95 - 1, все нижче - 0". Навіщо ти це робив? Ну, це забезпечить передбачення лише того, коли ви справді впевнені. Ваш помилково позитивний показник буде дійсно низьким, але ваш хибний негативний зріст зросте. У деяких ситуаціях це не погано - якщо ви збираєтесь звинуватити когось у шахрайстві, ви, ймовірно, спочатку хочете бути справді впевненими. Крім того, якщо слідкувати за позитивними результатами дуже дорого, то ви не хочете занадто багато їх.
Ось чому це стосується витрат. Існує вартість, коли ви класифікуєте 1 як 0, а вартість, коли ви класифікуєте 0 як 1. Як правило (якщо ви використовували налаштування за замовчуванням) AIC для логістичної регресії відноситься до особливого випадку, коли обидві неправильні класифікації однакові дорогий. Тобто логістична регресія дає найкращу загальну кількість правильних прогнозів, без переваги позитивних чи негативних.
Крива ROC використовується тому, що вона побудує істинну позитивну проти хибної позитивної, щоб показати, як працював класифікатор, якщо ви використовували його за різних вимог витрат. С-статистика виникає тому, що будь-яка крива ROC, що лежить строго над іншою, явно є домінуючим класифікатором. Тому інтуїтивно вимірювати площу під кривою як міру того, наскільки хороший класифікатор загалом.
Отже, якщо ви знаєте свої витрати при встановленні моделі, використовуйте AIC (або подібні). Якщо ви просто будуєте показник, але не вказуєте діагностичний поріг, тоді потрібні підходи до AUC (із наступним застереженням щодо самого AUC).
То що не так із c-statistic / AUC / Gini?
Протягом багатьох років AUC був стандартним підходом і досі широко застосовується, однак з ним є низка проблем. Одне, що зробило його особливо привабливим, це те, що він відповідає тесту Вілкокса у рядах класифікацій. Тобто вимірюється ймовірність того, що оцінка випадково вибраного члена одного класу буде вище, ніж випадково вибраного члена іншого класу. Проблема в тому, що майже ніколи не є корисною метрикою.
Найбільш критичні проблеми з AUC були оприлюднені Девідом Хендом кілька років тому. (Див. Посилання нижче) Суть проблеми полягає в тому, що хоча AUC складає середній показник за всі витрати, оскільки вісь x кривої ROC є помилково позитивною швидкістю, вага, який вона присвоює різним режимам витрат, варіюється між класифікаторами. Отже, якщо ви обчислите AUC за двома різними логічними регресіями, це не буде вимірювати "те саме" в обох випадках. Це означає, що мало сенсу порівнювати моделі на основі AUC.
Рука запропонувала альтернативний розрахунок, використовуючи зважування з фіксованою вартістю, і назвала це H-міркою - в R називається пакет, hmeasure
який буде виконувати цей розрахунок, і я вважаю AUC для порівняння.
Деякі посилання на проблеми з AUC:
Коли площа під кривою робочої характеристики приймача є відповідним показником продуктивності класифікатора? DJ Hand, C. Anagnostopoulos Letters Recognitions Letters 34 (2013) 492–495
(Я вважав це особливо доступним і корисним поясненням)