Чи обов'язково логістична регресія, що збільшує ймовірність, також максимізує AUC над лінійними моделями?


13

З огляду на набір даних із двійковими результатами та деякою матрицею провідників , стандартна модель логістичної регресії оцінює коефіцієнти які максимально збільшують біноміальну ймовірність. Коли повний ранг є унікальним; коли ідеального поділу немає, воно є кінцевим.y{0,1}nXRn×pβMLEXβMLE

Чи ця модель максимальної ймовірності також максимізує AUC ROC (він же -статистичний), чи існує якась оцінка коефіцієнта яка отримає більш високу AUC ROC? Якщо це правда, що MLE не обов'язково максимізує RUC AUC, то іншим способом розглянути це питання є "Чи існує альтернатива максимізації ймовірності, яка завжди максимізує RUC AUC логістичної регресії?"cβAUCβMLE

Я припускаю, що в іншому випадку моделі однакові: ми не додаємо або видаляємо предиктори в , або іншим чином змінюємо специфікацію моделі, і я припускаю, що моделі, що збільшують ймовірність і максимально збільшують AUC, використовують однакову функцію зв'язку.X


2
Безумовно, якщо, наприклад, якась функція посилання створює кращу форму, ніж logit? Окрім цього, добре питання, якщо процес генерації даних можна вважати logit. βAUCβMLE
Гайка

Добре питання, але врахуйте це. ROC і AUC використовуються для порівняння двох різних моделей, тому якщо рішення для оцінки MLE будь-якої моделі є унікальним, це означає, що ви можете отримати інший AUC, тільки якщо ви зміните специфікацію поточної моделі і оціните нову іншу модель через MLE. Отже, на даний момент іншим питанням буде: чи існує який-небудь інший «кращий» метод оцінки (алгоритм максимізації ecc), окрім простого MLE, застосовного до тієї ж моделі, щоб я дійшов до різних оцінок коефіцієнтів, що призводять до нових «кращих» бета-версій з більш високою AUC?
Fr1

@Nutle точно, що буде інший специфікації
Fr1

@ Fr1 Так, це унікальне значення. Що я маю на увазі під своїм запитанням, це щось на кшталт "що, якщо є якась альтернатива MLE, яка досягає вищої AUC?" Якщо це правда, що існує інша лінійна модель (модель, відмінна від MLE), яка досягає більш високої AUC, тоді це було б цікаво знати.
Sycorax каже, що

1
@Sycorax, що ще ми припускаємо? :) Припущення важливі, оскільки якщо ми знаємо справжній DGP із використовуваними посиланнями та змінними, MLE є рівномірно найпотужнішою неупередженою статистикою.
Гайка

Відповіді:


11

Це не так, що .βMLE=βAUC

Щоб проілюструвати це, врахуйте, що AUC можна записати як

P(y^1>y^0|y1=1,y0=0)

Іншими словами, впорядкування прогнозів - це єдине, що впливає на AUC . Це не стосується функції ймовірності. Отже, як розумова вправа, припустимо, у нас були єдині передбачувачі, і в нашому наборі даних ми не бачимо ідеального поділу (тобто є кінцевим). Тепер, якщо ми просто візьмемо значення найбільшого прогноктора і збільшимо його на якусь невелику суму, ми змінимо ймовірність цього рішення, але це не змінить AUC, оскільки впорядкування має залишатися колишнім. Таким чином, якщо старий MLE максимізував AUC, він все одно буде максимізувати AUC після зміни предиктора, але більше не збільшуватиме ймовірність.βMLE

Таким чином, принаймні, не так, що не є унікальним; будь-яка що зберігає впорядкованість оцінок, досягає точно такої ж AUC. В цілому, оскільки AUC чутливий до різних аспектів даних, я вважаю, що нам слід знайти можливість, коли не збільшує значення . Справді, я б ризикнув здогадатися, що це відбувається з великою часткою ймовірності.βAUCββMLEβAUC

EDIT (переміщення коментаря у відповідь)

Наступний крок - довести, що MLE не обов'язково максимізує AUC (що ще не доведено). Це можна зробити, взявши щось на кшталт прогнозів 1, 2, 3, 4, 5, 6, (з ) з результатами 0, 0, 0, 1, 1, 1, 0. Будь-яке позитивне значення буде максимізувати AUC (незалежно від значення ), але ми можемо вибрати достатньо великий, щоб .xx>6βxxβMLE<0


1
(+1) Ах! Звичайно - оскільки мова йде про замовлення, ми можемо довільно змінити перехоплення, що, очевидно, повинно змінити значення ймовірності, але впорядкування повинно бути однаковим, оскільки жоден з коефіцієнтів ознак не змінився, щоб AUC залишався фіксованим.
Sycorax каже, що

+1. Чи працює приклад редагування з ? Якщо нам потрібно взяти достатньо великий щоб це працювало з великим , невже ймовірність таких значень швидко не збільшиться до 0 для деякого фіксованого logit? nxn
Натле

@Nutle: ну, залежить, що ти маєш на увазі про . Якби ми взяли копій (передбачувачі + результати) мого набору даних про іграшки, то так, результат буде справедливим. Однак, якби ми взяли копій цього набору прогнозів, і дані дійсно виходили з логістичної регресійної моделі, цього майже не відбудеться (як ви вказуєте). Зауважте, однак, що щось подібне до цього може статися з високою ймовірністю, якби відносини між прогнозаторами насправді не відповідали моделі логістичної регресії. nnn
Cliff AB

Так, дякую, говорили про розмір. Отже, припускаючи, що відомий такий важкохвостий розподіл, чи все-таки приклад мав би місце, якщо оцінка MLE була скоригована для справжнього розподілу? Що я збираюся зробити, це якщо ймовірність існування такого для будь-якого зразка не наближається до 0, чи не повинна оцінка MLE реагувати на це відповідно і не діяти так, як це було б із стороннім? Вибачте, якщо я тут не зовсім зрозуміла з формулюваннямxn
Nutle
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.