Який псевдо- міру слід повідомити для логістичної регресії (Cox & Snell або Nagelkerke)?


55

У мене є SPSSвихід на модель логістичної регресії. Вихідні дані повідомляють про два заходи для відповідності моделі Cox & Snellта Nagelkerke.

Отже, як правило, про який із цих заходів R² ви б повідомили про відповідність моделі?

Або, який із цих відповідних індексів є тим, про який зазвичай повідомляють у журналах?


Деякі передумови: регресія намагається передбачити наявність або відсутність птаха (глушника) від деяких змінних умов середовища (наприклад, крутості, рослинного покриву, ...). На жаль, птах з’являється не дуже часто (35 ударів до 468 промахів), тому регресія працює досить погано. Cox & Snell - це .09, Nagelkerke, .23.

Предмет - екологічні науки або екологія.


3
На відмінному довідковому веб-сайті статистики UCLA є відмінна сторінка, що пояснює різні псевдо- R2 і те, як вони пов'язані один з одним.
gung - Відновіть Моніку

Ось два посилання, які обговорюють точний непараметричний алгоритм, який максимально підвищує точність моделей логістичної регресії. Якщо ви використовуєте цей метод зі своїми даними, це підвищить класифікаційну ефективність вашої логістичної регресійної моделі при застосуванні до вибірки. Приклад 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Приклад 2: epm.sagepub.com/content/54/1/73.abrief
user31256

Відповіді:


74

Зазвичай я б взагалі не доповідав про . Хосмер і Лемешоу у своєму підручнику « Прикладна логістична регресія» (2-е видання) пояснюють, чому:R2

Загалом, [ заходи] базуються на різних порівняннях прогнозованих значень від встановленої моделі до значень [базової моделі], без даних або перехоплення лише моделі і, як результат, не оцінюють корисність -придатний. Ми вважаємо, що справжній показник придатності - це заснований строго на порівнянні спостережуваних із прогнозованими значеннями з пристосованої моделі.R2

[На с. 164.]

Щодо різних версій ML для , статусу "псевдо ", вони згадують, що це не "рекомендується для рутинного використання, оскільки це не так інтуїтивно легко пояснити", але вони вважають зобов'язаними описати це, оскільки різні програмні пакети повідомляють про це.R2R2

Вони закінчують цю дискусію написанням,

... низькі значення в логістичній регресії є нормою, і це створює проблему при повідомленні про їх значення аудиторії, яка звикла бачити лінійні значення регресії. ... Таким чином [сперечаючись посилаючись на запущені приклади в тексті], ми не рекомендуємо регулярну публікацію значень з результатами встановлених логістичних моделей. Однак вони можуть бути корисними в стані побудови моделі як статистики для оцінки конкуруючих моделей.R2R2

[На с. 167.]

Мій досвід роботи з великими логістичними моделями (записи від 100 до 300 кб, 100 - 300 пояснювальних змінних) був таким самим, як описано H&L. Я міг досягти порівняно високого зі своїми даними, приблизно до 0,40. Вони відповідали рівню помилок класифікації від 3% до 15% (помилкові негативи та помилкові позитиви, врівноважені, як підтверджено за допомогою 50% наборів даних про затримку). Як натякнув H&L, мені довелося витратити багато часу на розмову з клієнтом (самим складним консультантом, який був знайомий з ) щодо і змусити його зосередитись на тому, що має значення в аналізі (помилка класифікації ставки). Я настійно рекомендую описати результати вашого аналізу без посилання на , що швидше вводить в оману, ніж ні.R2R2R2R2


1
(+1) Я спочатку думав про те, щоб розширити свою відповідь (що з’явилося відразу після вашої), але, безумовно, ваша відповідь є самодостатньою.
chl

дякую за це, корисний для проекту, над яким я зараз працюю - і цілком має сенс.
Брендон Бертелсен

1
@whuber: Я також схильний тяжіти до правильної класифікації. ставки, але я бачив численні посилання в підручниках та веб-сайтах, що застерігають аналітиків не довіряти їм, і підкреслюючи, що псевдо-rsq, незважаючи на його обмеження, є більш справедливою метрикою. Я часто читаю щось, що здається, що певною мірою підтверджується в моїх власних аналізах: що при додаванні даного прогнозованого псевдо-rsq може піднятися вгору (а інші показники означатимуть користь від додавання), тоді як правильний показник класифікації не вдається, і що не слід довіряти останньому. Чи задумувались ви над цим?
rolando2

4
@ rolando2 Так, у мене є. Це ставить питання про те, наскільки повинно піднятися псевдо- , щоб виправдати включення змінних. Я підозрюю, що ваша "правильна класифікаційна норма" може посилатися на коефіцієнт вибірки , який, звичайно, є необ'єктивним. Якщо це правильно, то те, що ви читаєте, лише порівнює дві нижчі статистичні дані. Швидкість вибірки є набагато кориснішим показником, ніж псевдо- . R2R2
whuber

1
+1. Крім того, щоб розширити найтоншу частину вашої відповіді, ви згадуєте коефіцієнти помилок класифікації , які є множинними і їх не слід плутати з точністю . Існує багато різних типів обчислень, які можуть вийти з матриці плутанини - точність , помилковий позитивний показник , точність тощо - і який з них нам цікавий, залежить від програми. Крім того, ви робите відмітку за вибірковим зразком , який відрізняється від перехресної перевірки , але іноді плутаєте його.
Уейн

27

Обидва показники є мірою міцності асоціації (тобто, чи пов'язаний який-небудь предиктор з результатом, як для тесту на ЛР), і вони можуть бути використані для кількісної оцінки здатності прогнозування або ефективності моделі. Один прогноз може мати суттєвий вплив на результат, але він не може бути таким корисним для прогнозування індивідуальної реакції , отже, необхідність оцінювати ефективність моделі в цілому (wrt. Нульова модель). Nagelkerke корисний, оскільки має максимальне значення 1,0, як сказав Срікант. Це просто нормалізована версія обчислена з коефіцієнта ймовірності,R2R2RLR2=1exp(LR/n), яка має зв'язок зі статистикою Wald для загальної асоціації, як спочатку запропонували Кокс та Снелл. Інші показники здатності до прогнозування - оцінка Brier, індекс C (вірогідність узгодження або ROC) або D D Сомера, останні два забезпечують кращу міру прогнозної дискримінації.

Єдині припущення, зроблені при логістичній регресії, - це лінійність та адекватність (+ незалежність). Хоча запропоновано багато глобальних тестів на придатність (наприклад, тест Hosmer & Lemeshow , але дивіться мій коментар до @onestop), вони, як правило, не мають сили. Для оцінки відповідності моделі краще покластися на візуальні критерії (стратифіковані оцінки, непараметричне згладжування), які допомагають виявити локальний або глобальний відхід між передбачуваними та спостережуваними результатами (наприклад, нелінійність чи взаємодія), і це значною мірою детально описано в RMS Гаррелла роздатковий матеріал . За спорідненою темою (калібрувальні випробування), Steyerberg ( Моделі клінічного прогнозування)χ2, 2009) вказує на той самий підхід до оцінки згоди між спостережуваними результатами та прогнозованими ймовірностями:

Калібрування пов'язане з корисністю придатності, що стосується здатності моделі підходити до заданого набору даних. Як правило, не існує єдиного тесту на придатність, який би мав хорошу силу проти всіх видів невідповідності моделі прогнозування. Прикладами невідповідності є пропущені нелінійності, взаємодії або невідповідна функція зв'язку між лінійним прогноктором та результатом. Належність придатності може бути перевірена статистикою . (стор. 274)χ2

Він також пропонує покластися на абсолютну різницю між згладженими спостережуваними результатами та прогнозованими ймовірностями або візуально, або з так званою статистикою Харрелла Е.

Більш детально можна ознайомитися в книзі Гаррелла, Стратегії моделювання регресії (с. 203-205, 230-244, 247-249). Для більш недавньої дискусії див. Також

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ, and Kattan, MW (2010). Оцінка ефективності моделей прогнозування, основи традиційних та нових заходів . Епідеміологія , 21 (1) , 128-138.


Ви могли б детальніше розмежувати "добру придатність" та силу асоціації чи прогностичну здатність?
Енді Ш

@Andy Дякую за вказівку на це. Потім я усвідомлюю, що моє перше речення насправді не звучить добре. Я оновлю свою відповідь, будь ласка, дайте мені знати, якщо з вами це нормально.
чл

Дякуємо за оновлення, і це прояснює відмінність.
Енді Ш

21

Я б подумав, що головна проблема будь-якого виду для логістичної регресії полягає в тому, що ви маєте справу з моделлю, яка має відоме значення шуму. Це на відміну від стандартної лінійної регресії, де рівень шуму зазвичай трактується як невідомий. Бо ми можемо записати функцію щільності ймовірності glm як:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Де Відомі функції, а для функції зворотного зв'язку . Якщо ми визначимо звичайні залишки відхилення GLM якb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Ми маємо (через коефіцієнт ймовірності chi-square, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Де - розмірність . Для логістичної регресії маємо , що відомо. Тож ми можемо використовувати це для визначення певного рівня залишку, який є "прийнятним" або "розумним". Зазвичай це не можна зробити для регресії OLS (якщо ви не маєте попередньої інформації про шум). А саме, ми очікуємо, що кожен залишок відхилення буде приблизно . Занадто багато і цілком ймовірно, що у моделі відсутні важливі ефекти (недостатні); занадто багато і цілком ймовірно, що в моделі є надлишкові або помилкові ефекти (надмірна відповідність). (це також може означати неправильне визначення моделі).pβϕ=11di21di21

Тепер це означає, що проблема псевдо- полягає в тому, що він не враховує, що рівень варіації бінома є передбачуваним (за умови, що структура біномальної помилки не ставиться під сумнів). Таким чином, навіть якщо Nagelkerke коливається від до , він все ще не масштабується належним чином. Крім того, я не можу зрозуміти, чому вони називаються псевдо якщо вони не рівні звичайному коли ви встановлюєте "GLM" зі зв’язком ідентичності та нормальною помилкою. Наприклад, еквівалентний R-квадрат кокс-черепа для нормальної помилки (використовуючи оцінку дисперсії REML) задається:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Що звичайно виглядає дивно.

Я думаю, що кращою мірою «Доброта придатності» є сума залишків відхилення, . Це головним чином тому, що ми маємо на меті прагнути.χ2


+1 Приємне виклад питань, на які натякали у коментарях після відповіді Шріканта .
whuber

Зважаючи на те, що біноміальний GLM був би придатний, використовуючи ітераційно зважені найменші квадрати, чому б мір якості якості пристосування не міг повідомити про R2 зважених найменших квадратів, що підходять за останню ітерацію IRLS, з якою підходив GLM? Як в stats.stackexchange.com/questions/412580/… ?
Tom Wenseleers

16

Я знайшов короткий документ Тью Тюра «Коефіцієнти детермінації в моделях логістичної регресії - нова пропозиція: коефіцієнт дискримінації» (2009, американський статистик ) про різні пропозиції щодо коефіцієнта визначення в логістичних моделях, які є досить освічуючими. Він добре працює, підкреслюючи плюси і мінуси - і звичайно пропонує нове визначення. Дуже рекомендую (хоча у мене немає улюбленого).


1
Дякуємо, що вказали на цей папір; я якось пропустив це (і це з’явилося, коли я опинився в середині великого логістичного регресійного проекту!).
whuber

3
Для запису це нове визначення , що є середнім передбачуваним значенням для відповідей мінус середнім прогнозованим значенням для відповідей. Він може становити від до . Tjur не відхилена Nagelkerke псевдо , але припускає , що це не вистачає «інтуїтивне звернення» користуються . D=π^¯1π^¯01001R2D
whuber

8

Я також збирався сказати "жодне з них", тому я підтримав відповідь Валера.

Окрім критики R ^ 2, Hosmer & Lemeshow запропонували альтернативну міру корисності для логістичної регресії, яка іноді корисна. Це ґрунтується на поділі даних на (скажімо) 10 груп однакового розміру (або якомога ближче), упорядкувавши передбачувану ймовірність (або, що еквівалентно, лінійний предиктор), потім порівнявши спостережувану із очікуваною кількістю позитивних відповідей у ​​кожній групі та проведення тестування на чи-квадрат. Цей тест на корисність Хосмера-Лемешоу реалізований у більшості статистичних програмних пакетів.


3
Оригінальний тест HL GoF не дуже потужний, оскільки залежить від класифікації безперервної шкали предиктора на довільну кількість груп; Компанія H&L запропонувала вважати децилом, але, очевидно, це залежить від розміру вибірки, і за деяких обставин (наприклад, ІРТ-моделей) у вас часто є дуже мало людей на одному або обох кінцях шкали, так що обрізи розташовані нерівномірно. Див. Порівняння тестів на придатність для логістичної регресійної моделі, Stat. Мед. 1997 16 (9): 965, j.mp/aV2W6Iχ2
CHL

Дякую чі, це корисна довідка, хоча ваше посилання j.mp привело мене до запиту про вхід у BiblioInserm. Ось посилання Дої на основі: dx.doi.org/10.1002 / ...
OneStop

Вибачте за неправильне посилання ... Я, мабуть, пам’ятаю, що в Designпакеті Франка Харрелла є альтернативний тест H&L 1 df.
chl

3

Я б вважав за краще Nagelkerke, оскільки ця модель відповідає рівню 1, коли модель ідеально підходить, що дає читачеві відчуття того, наскільки ваша модель від ідеальної форми. Cox & Shell не отримує 1 за ідеальне розміщення моделі, а значить, інтерпретувати значення 0,09 трохи складніше. Дивіться цю URL-адресу для отримання додаткової інформації про Pseudo RSquared для пояснення різних типів наборів .


8
"Ідеальне пристосування" настільки далеко не досяжне в будь-якій реалістичній логістичній регресії, що здається несправедливим його використання як еталон або стандарт.
whuber

1
@whuber True, але ви можете використовувати стандарт для порівняння відносної продуктивності двох конкуруючих моделей. Ваша відповідь з низьким рівнем R ^ 2 у вашій відповіді та її наслідки - це хороші моменти, але якщо у вас є (наприклад, рецензенти вимагають цього тощо) використовувати якусь форму R ^ 2, то бажано Nagelkerke.

1
@Skridant Так, все ж проблема рецензентів, які хочуть бачити та корекцію Bonferroni скрізь ...R2
chl

@Srikant, @chl: Цинічне читання цієї теми запропонувало б вибрати найбільший R ^ 2 серед усіх програмних звітів ;-).
whuber

2
@chl Пропозиція для рецензентів / клієнтів, звичайно, необхідна, але іноді доводиться бути прагматичними. Якщо читачі неправильно інтерпретують низький R ^ 2 як відсутність адекватної продуктивності моделі, то питання, порушені @whuber, будуть певною мірою пом'якшені.

3

Незважаючи на аргументи проти використання псевдо-r-квадратів, деякі люди з різних причин захочуть продовжувати їх використовувати хоча б певний час. Те, що я засвоїв у своїх прочитаннях (і, на жаль, не можу надати цитати на даний момент), це те

  • якщо і C&S, і Nag. нижче .5, C&S буде кращим показником;
    якщо вони обоє вище .5, Nag. воля; і
    якщо вони сідлають .5, кажуть.

Також формула, результати якої часто потрапляють між цими двома, про яку згадував Скотт Менард в "Аналізі прикладної логістичної регресії" (Sage), є

[-2LL0 - (-2LL1)]/-2LL0.

На графіку нижче це позначено як "L".

введіть тут опис зображення


Що показує ця картина (на чому позначається горизонтальна вісь)? Крім того, чим остання формула (яка схожа на статистику масштабного коефіцієнта ймовірності) відрізняється від Nagelkerke саме? R2
chl

Аналіз №: Я пробував різні аналізи з різними наборами даних. Не майте під рукою формулу Nagelkerke, але я думаю, що вона доступна.
rolando2

Пол Аллісон висвітлює формулу Nagelkerke, яка є скоригованою вгору формулою Cox & Snell, на statistichorizons.com/2013/02 . Прочитавши цей блог і, як правило, за 2-3 роки, відколи відбулася більшість цієї дискусії, я переконався, що недооцінки Cox & Snell пояснюють відмінність, і що мені краще усереднювати C&S та результат Nagelkerke.
rolando2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.