Що означають залишки в логістичній регресії?


62

Відповідаючи на це питання, Джон Крісті запропонував, що відповідність логістичних регресійних моделей слід оцінювати шляхом оцінки залишків. Мені знайоме, як інтерпретувати залишки в OLS, вони знаходяться в тій же шкалі, що і DV, і дуже чітко різниця між y та y, передбаченими моделлю. Однак для логістичної регресії я раніше просто вивчав оцінки відповідності моделі, наприклад, AIC, тому що я не був впевнений, що буде означати залишок для логістичної регресії. Подивившись в допомогу Лепеха файли трохи , я бачу , що в R існує п'ять типів GLM залишків доступні, c("deviance", "pearson", "working","response", "partial"). Файл довідки стосується:

У мене немає копії цього. Чи є короткий спосіб описати, як інтерпретувати кожен із цих типів? Чи буде в логістичному контексті сума квадратичних залишків забезпечити змістовну міру відповідності моделі чи краще з інформаційним критерієм?


2
Є елементи цього питання, які залишаються без відповіді, наприклад, характер "пернатої", "працюючої", "відповіді" та "часткової" залишків, але поки я прийму відповідь Тілаколео.
russellpierce

Я знаходжу , що binnedplotфункція в R пакета плечі дає дуже корисний графік залишків. Це добре описано на стор.97-101 Gelman and Hill 2007 .
кон'югатприор

1
Один з дійсно простих способів перевірити відповідність моделі - це графік спостережуваних та прогнозованих пропорцій. Але це не спрацює, якщо у вас є регресія bernoulli (тобто всі ваші спостереження мають унікальні комбінації незалежних змінних, так що ), оскільки ви просто побачите рядок нулів і одиниць. ni=1
ймовірністьлогічний

Так - на жаль, зазвичай я використовую відеокарта Bernoulli.
russellpierce

Відповіді:


32

Найпростішими для розуміння залишків є залишки відхилення, як коли квадрати ці суми в -2 рази перевищують вірогідність журналу. У його найпростіші терміни логістичну регресію можна зрозуміти з точки зору пристосування функції для відомого таким чином, щоб мінімізувати загальне відхилення, яке становить суму залишків відхилення у квадраті всіх точок даних.Xp=logit1(Xβ)X

Відхилення (у квадраті) кожної точки даних дорівнює (-2 рази) логарифму різниці між його передбачуваною ймовірністю та доповненням його фактичного значення (1 для контролю; 0 для випадку) в абсолютних значеннях. Ідеальне прилягання точки (яка ніколи не виникає) дає відхилення нуля, оскільки log (1) дорівнює нулю. Точка, що погано підходить, має велике залишкове відхилення, оскільки в 2 рази кращий журнал дуже малого значення - це велика кількість.logit1(Xβ)

Логістична регресія є подібною до знаходження бета-значення таким чином, що сума залишків відхилення у квадраті зводиться до мінімуму.

Це можна проілюструвати сюжетом, але я не знаю, як його завантажити.


1
Зображення рег.: Використовуйте один із безкоштовних сайтів хостингу зображень (пошуковий google), завантажте сюжет на цей сайт та зв’яжіть його тут.

Я виправив помилку в своїй початковій відповіді. Я вперше написав p = logit (X beta). Фактично прогнозована ймовірність - це зворотний логіт лінійної комбінації, p = inv-logit (X бета). У R це обчислюється як p <-plogit (X beta), що є p = exp (X beta) / (1 + exp (X * beta)).
Thylacoleo

1
З якого пакету R plogitпоходить? Не було зрозуміло, чи визначаєте ви це тут чи дістаєте його десь із іншого.
Амюнімус

1
@Amyunimus plogitзнаходиться в R (статистика), пакет не потрібен (принаймні не більше)
russellpierce

7

Що стосується залишків Груші,

Залишковий коефіцієнт Пірсона - це різниця між спостережуваною та передбачуваною ймовірністю, поділена на біноміальне стандартне відхилення від розрахункової ймовірності. Тому стандартизуємо залишки. Для великих зразків стандартизовані залишки повинні мати нормальний розподіл.

Від Менарда, Скотта (2002). Прикладний логістичний регресійний аналіз, 2-е видання. Тисяча Оукс, Каліфорнія: Мудречні публікації. Серія: Кількісні додатки до соціальних наук, № 106. Перше видання, 1995. Див. Розділ 4.4


8
це не зовсім правильно щодо великих зразків. Це швидше, що вам потрібні великі числа біноміальних клітин , або що те саме, велика кількість реплікації коваріатів. Залишки персона далеко не зазвичай розподілені для будь-якого спостереження, де . n i < 5nini<5
ймовірністьлогічний

5

Робочі залишки - це залишки в кінцевій ітерації будь-якого ітераційно зваженого методу найменших квадратів . Я вважаю, що це означає залишки, коли ми думаємо, що це остання ітерація нашого запуску моделі. Це може призвести до дискусії про те, що запуск моделі - це ітеративна вправа.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.