Яка різниця у тому, що насправді вимірюють AIC та c-статистику (AUC) для відповідності моделі?


29

Інформаційний критерій Akaike (AIC) та c-статистика (площа під кривою ROC) - це два заходи моделі, придатної для логістичної регресії. У мене виникають труднощі з поясненням того, що відбувається, коли результати двох заходів не узгоджуються. Я здогадуюсь, що вони вимірюють трохи різні аспекти відповідності моделі, але які ці конкретні аспекти?

У мене є 3 логістичні моделі регресії. Модель M0 має деякі стандартні коваріати. Модель M1 додає X1 до M0; модель M2 додає X2 до M0 (тому M1 і M2 не вкладені).

Різниця AIC від M0 до M1 і M2 становить приблизно 15, вказуючи на те, що X1 і X2 покращують примірність моделі, і приблизно на однакову кількість.

c-статистикою є: M0, 0,70; М1, 0,73; М2 0,72. Різниця c-статистики від M0 до M1 значна (метод DeLong et al 1988), але різниця від M0 до M2 не є істотною, що свідчить про те, що X1 покращує примірність моделі, але X2 не робить.

X1 не збирається звичайно. X2 передбачається регулярно збирати, але він відсутній приблизно в 40% випадків. Ми хочемо вирішити, чи почати збирати X1, або поліпшити колекцію X2, або відкинути обидві змінні.

З AIC ми робимо висновок, що змінні значно покращують модель. Напевно, простіше покращити колекцію X2, ніж почати збирати абсолютно нову змінну (X1), тому ми б прагнули покращити колекцію X2. Але від c-статистики X1 вдосконалює модель, а X2 - ні, тому слід забути про X2 і почати збирати X1.

Оскільки наша рекомендація залежить від того, на яку статистику ми зосереджуємось, ми повинні чітко розуміти різницю в тому, що вони вимірюють.

Будь-яка рада вітається.

Відповіді:


25

AIC та c-статистика намагаються відповісти на різні запитання. (Також в останні роки піднімалися деякі проблеми з c-статистикою, але я буду розглядати це як осторонь)

Грубо кажучи:

  • AIC повідомляє про те, наскільки ваша модель підходить для конкретної вартості неправильної класифікації.
  • AUC повідомляє про те, наскільки добре буде працювати ваша модель в середньому за всіх помилкових витрат.

Коли ви розраховуєте AIC, ви вважаєте, що ваш логіст дає прогноз, скажімо, 0,9, як прогноз 1 (тобто швидше 1, ніж 0), однак це не повинно бути. Ви можете взяти свій логістичний бал і сказати: "все вище 0,95 - 1, все нижче - 0". Навіщо ти це робив? Ну, це забезпечить передбачення лише того, коли ви справді впевнені. Ваш помилково позитивний показник буде дійсно низьким, але ваш хибний негативний зріст зросте. У деяких ситуаціях це не погано - якщо ви збираєтесь звинуватити когось у шахрайстві, ви, ймовірно, спочатку хочете бути справді впевненими. Крім того, якщо слідкувати за позитивними результатами дуже дорого, то ви не хочете занадто багато їх.

Ось чому це стосується витрат. Існує вартість, коли ви класифікуєте 1 як 0, а вартість, коли ви класифікуєте 0 як 1. Як правило (якщо ви використовували налаштування за замовчуванням) AIC для логістичної регресії відноситься до особливого випадку, коли обидві неправильні класифікації однакові дорогий. Тобто логістична регресія дає найкращу загальну кількість правильних прогнозів, без переваги позитивних чи негативних.

Крива ROC використовується тому, що вона побудує істинну позитивну проти хибної позитивної, щоб показати, як працював класифікатор, якщо ви використовували його за різних вимог витрат. С-статистика виникає тому, що будь-яка крива ROC, що лежить строго над іншою, явно є домінуючим класифікатором. Тому інтуїтивно вимірювати площу під кривою як міру того, наскільки хороший класифікатор загалом.

Отже, якщо ви знаєте свої витрати при встановленні моделі, використовуйте AIC (або подібні). Якщо ви просто будуєте показник, але не вказуєте діагностичний поріг, тоді потрібні підходи до AUC (із наступним застереженням щодо самого AUC).

То що не так із c-statistic / AUC / Gini?

Протягом багатьох років AUC був стандартним підходом і досі широко застосовується, однак з ним є низка проблем. Одне, що зробило його особливо привабливим, це те, що він відповідає тесту Вілкокса у рядах класифікацій. Тобто вимірюється ймовірність того, що оцінка випадково вибраного члена одного класу буде вище, ніж випадково вибраного члена іншого класу. Проблема в тому, що майже ніколи не є корисною метрикою.

Найбільш критичні проблеми з AUC були оприлюднені Девідом Хендом кілька років тому. (Див. Посилання нижче) Суть проблеми полягає в тому, що хоча AUC складає середній показник за всі витрати, оскільки вісь x кривої ROC є помилково позитивною швидкістю, вага, який вона присвоює різним режимам витрат, варіюється між класифікаторами. Отже, якщо ви обчислите AUC за двома різними логічними регресіями, це не буде вимірювати "те саме" в обох випадках. Це означає, що мало сенсу порівнювати моделі на основі AUC.

Рука запропонувала альтернативний розрахунок, використовуючи зважування з фіксованою вартістю, і назвала це H-міркою - в R називається пакет, hmeasureякий буде виконувати цей розрахунок, і я вважаю AUC для порівняння.

Деякі посилання на проблеми з AUC:

  • Коли площа під кривою робочої характеристики приймача є відповідним показником продуктивності класифікатора? DJ Hand, C. Anagnostopoulos Letters Recognitions Letters 34 (2013) 492–495

    (Я вважав це особливо доступним і корисним поясненням)



Це я шукав - так, це було ключовим першим документом щодо цього (хоча я думаю, що він, отже, орієнтований на більш технічну аудиторію, ніж деякі з пізніших робіт).
Корон

3
R2

Мене бентежить відповідь Короне, я вважав, що AIC не має нічого спільного з прогнозованою продуктивністю моделі, і що це лише міра ймовірності даних, що торгуються складністю моделі.
Жубарб

@ Беркан не впевнений, що ви маєте на увазі під "не має нічого спільного з прогнозованою ефективністю", якщо ви просто не маєте на увазі, що це міра у вибірці, а не вибірка? (Чим краща ймовірність, тим краще "прогнозує" ці точки даних). Справа в тому, що AIC призначена для певної, попередньо вибраної функції ймовірності, тоді як AIC - це середнє значення для їх набору. Якщо ви знаєте ймовірність (тобто поріг, витрати, поширеність ...), тоді ви можете використовувати AIC.
Корон

3

Процитований документ не має підстав для використання в реальному світі в клінічній діагностиці. Він має теоретичну криву з 0,5 AUC, що натомість є ідеальним класифікатором. Він використовує єдиний набір даних у реальному світі, де моделі будуть викинуті з рук, оскільки вони такі погані, і коли облік довірчих інтервалів навколо вимірювань (дані не надаються, але виводяться), ймовірно, буде випадковим . Зважаючи на відсутність даних реального (або навіть правдоподібного моделювання) даних, це порожній папір. Я особисто брав участь в аналізі тисяч класифікаторів серед тисяч пацієнтів (з достатнім ступенем свободи). У цьому контексті його аргументи не чутні.

Він також схильний до суперлативів (не є хорошим знаком в будь-якому контексті), і робить непідтримувані узагальнення, наприклад, витрати не можуть бути відомі. У медицині прийняті такі витрати, як 10% позитивна прогнозна цінність для скринінгових тестів, і 100 000 доларів США за рік, скоригований якістю для терапевтичних втручань. Мені важко повірити, що під час підрахунку кредитних показників витрати не дуже зрозумілі. Якщо він каже (незрозуміло), що різні індивідуальні помилкові позитивні та помилкові негативи несуть різні витрати, хоча це дуже цікава тема, вона не нагадує двійкові класифікатори.

Якщо його суть полягає в тому, що форма ROC має значення, то для складних користувачів це очевидно, і неафіційним користувачам потрібно набагато більше турбуватися, наприклад, включення поширеності в позитивні та негативні прогнозні значення.

Нарешті, я втрачаю розуміння того, як різні класифікатори не можуть бути оцінені на основі різних реальних обмежень, визначених клінічним (або фінансовим) використанням моделей. Очевидно, для кожної моделі було б обрано різні відсічки. Моделі не можна порівняти, базуючись лише на AUC. Класифікатори не мають значення, але форма кривої має значення.


-1

Для мене суть полягає в тому, що хоча C-статистика (AUC) може бути проблематичною при порівнянні моделей з різними незалежними змінними (аналогічно тому, що Hand називає "класифікаторами"), вона все ще корисна в інших програмах. Наприклад, валідаційні дослідження, де однакова модель порівнюється в різних групах досліджень (набори даних). Якщо модель або індекс / оцінка ризику виявляється сильно дискримінантною в одній сукупності, а не в інших, це може означати, що це загалом не дуже хороший інструмент, але може бути в конкретних випадках.


3
С-індекс занадто нечутливий, щоб його можна було використовувати для порівняння різних моделей. Я б зазвичай використовував узагальнений R2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.