Інтерпретація Псевдо-R2 Макфаддена


29

У мене є бінарна логістична регресійна модель з псевдо-R-квадратом Макфаддена 0,192 з залежною змінною, що називається платежем (1 = платіж і 0 = відсутність платежу). Яка інтерпретація цього псевдо R-квадрата?

Чи відносне порівняння для вкладених моделей (наприклад, 6-змінна модель має псевдо-R-квадрат Макфаддена 0,192, тоді як 5-змінна модель (після вилучення однієї змінної з вищезгаданої 6 змінної моделі) ця 5 змінна модель має псевдо R -в квадраті 0,131. Чи хотіли б ми зберегти цю 6-ю змінну в моделі?) або це абсолютна величина (наприклад, дана модель, яка має псевдо R-квадрат Макфаддена в 0,192, краща за будь-яку існуючу модель з псевдо Макфаддена R-квадрат 0,180 (навіть для вкладених моделей)? Це лише можливі способи поглянути на псевдо-R-квадрат Макфаддена, проте, я припускаю, що ці два погляди віддалені, отже, тому я задаю тут це питання.

Я провів велику кількість досліджень на цю тему, і мені ще належить знайти відповідь, яку я шукаю з точки зору можливості інтерпретувати псевдо R-квадрата Макфаддена R 0,19. Будь-яке розуміння та / або посилання дуже вдячні! Перш ніж відповісти на це запитання, я усвідомлюю, що це не найкращий захід для опису логістичної регресійної моделі, але я хотів би краще зрозуміти цю статистику незалежно!

Відповіді:


34

Тож я зрозумів, що підсумую те, що я дізнався про псевдо R2 Макфаддена, як належну відповідь.

Початкова посилання, яку я бачу для псевдо R2 Макфаддена, є: McFadden, D. (1974) «Умовно-логітний аналіз поведінки якісного вибору». Pp. 105-142 у П. Заремба (ред.), Межі економетрії. Академічна преса. http://eml.berkeley.edu/~mcfadden/travel.html На рисунку 5.5 показано взаємозв'язок між rho-квадратом та традиційними заходами R2 від OLS. Моя інтерпретація полягає в тому, що великі значення rho-квадрата (псевдо R2 Макфаддена) краще, ніж менші.

Інтерпретація псевдо R2 Макфаддена між 0,2-0,4 походить з розділу книги, яку він сприяв: Моделювання бахвіоральної подорожі. Редагували Девід Хеншер та Пітер Стофер. 1979. Макфадден сприяв Ch. 15 "Кількісні методи аналізу поведінки подорожей на осіб: деякі останні події". Обговорення оцінки моделі (в контексті багаточленних моделей Logit) починається на сторінці 306, де він вводить rho-квадрат (псевдо R2 Макфаддена). Макфадден заявляє, "хоча індекс R2 є більш звичним поняттям для планувальника, який має досвід OLS, для оцінки ML він не так добре поводиться, як міра квадратного рівня, для тих, хто незнайомий з rho-квадратами, слід попередити, що його значення мають тенденцію бути значно нижчими, ніж значення індексу R2 ... Наприклад, значення від 0,2 до 0,4 для rho-квадрата представляють НАЙКРАЙНУ придатність.

Таким чином, rho-квадрат може бути інтерпретований як R2, але не сподівайтеся, що він буде настільки великим. А значення 0,2-0,4 вказують (за словами Макфаддена) відмінну модель.


Гарне завершення, Кріс. Дякую за ваші зусилля!
Метт Райхенбах

Я пізно пішов до дискусії, але я залишу це посилання, де вони пояснюють R2 MacFadden порівняно з іншими заходами коригування: statisticshorizons.com/r2logistic
sergiouribe

13

R-квадрат Макфаддена визначається як 1-l_mod / l_null, де l_mod - значення вірогідності журналу для пристосованої моделі, а l_null - вірогідність журналу для нульової моделі, що включає лише перехоплення як предиктор (так що для кожної людини прогнозується однакова ймовірність "успіху").

Для логістичної регресійної моделі значення ймовірності журналу завжди негативне (тому що ймовірний внесок від кожного спостереження - це ймовірність між 0 і 1). Якщо ваша модель насправді не прогнозує результат кращого за нульову модель, l_mod не буде набагато більшим, ніж l_null, і тому l_mod / l_null приблизно 1, а квадрат R R McFadden близький до 0 (ваша модель не має прогнозного значення) .

І навпаки, якби ваша модель була справді хорошою, ті люди, які мають успіх (1), мали б відповідну ймовірність, близьку до 1, і навпаки, для тих, хто має результат (0). У цьому випадку, якщо ви пройдете підрахунок ймовірності, внесок вірогідності кожного індивідуума для вашої моделі буде близьким до нуля, таким чином, щоб l_mod був близьким до нуля, а квадрат R R McFadden був близьким до 1, що свідчить про дуже хорошу здатність прогнозування.

Щодо того, що можна вважати хорошою цінністю, моє особисте бачення полягає в тому, що подібні запитання в статистиці (наприклад, що є великою кореляцією?) - це те, що ніколи не може бути остаточною відповіддю. Минулого року я написав допис у блозі про R McFadden's R у квадраті в рамках логістичної регресії, яка має деякі подальші імітаційні ілюстрації.


5

Я провів дещо більш цілеспрямоване дослідження на цю тему, і виявив, що інтерпретації псевдо-R-квадрата Макфаддена (також відомий як показник коефіцієнта ймовірності) не зрозумілі; однак вона може коливатися від 0 до 1, але ніколи не досягне або перевищить 1 в результаті її обчислення.

Основне правило, яке мені здалося дуже корисним, - це те, що псевдо R-квадрат Макфаддена, що знаходиться в діапазоні від 0,2 до 0,4, свідчить про дуже гарну відповідність моделі. Як така, згадана вище модель з псевдо-R-квадратом МакФаддена 0,192, ймовірно, не є страшною моделлю, принаймні, за цією метрикою, але вона не є особливо сильною.

Важливо також зазначити, що псевдо R-квадрат Макфаддена найкраще використовувати для порівняння різних специфікацій однієї моделі (тобто вкладених моделей). Посилаючись на вищезгаданий приклад, модель 6 змінної (псевдо R-квадрата Макфаддена = 0,192) підходить для даних краще, ніж 5 змінної моделі (псевдо-R-квадрат Макфаддена = 0,131), яку я формально тестував за допомогою тесту коефіцієнта ймовірності , що вказує на значну різницю ( p <0,001) між двома моделями, і тому 6 змінних моделей є кращими для даного набору даних.


1
Що ви знайшли посилання, яке стверджує, що R2 McFadden між 0,2 - 0,4 є "дуже хорошим"?
Кріс

До речі ... ось посилання та посилання на оригінальну статтю Макфаддена, де він визначає свою міру псевдо-R2. McFadden, D. (1974) "Умовно-практичний аналіз поведінки якісного вибору". 105-142 у П. Заремба (ред.), Межі економетрії. Академічна преса. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris

1
Дякую за довідку. Здається, що багато робіт Макфаддена можна знайти на його веб-сайті в Берклі. Нижче посилання на всю книгу, яку ви цитуєте вище: elsa.berkeley.edu/users/mcfadden/travel.html Усі глави відображаються як PDF. Квадрат Rho (псевдо МакФаддена R2) згадується в главі 5. Сторінки 122 далі (див. Рівняння 5.33 та графік, що слідує далі). Я не бачу жодної згадки про 0,2-0,4 = "VG модель підходить". Я продовжуватиму шукати початковий вигляд цього "великого правила". Спасибі за вашу допомогу!
Кріс

1
Без проблем! Я ціную вашу цікавість та ретельність. Точну фразу можна знайти на lifesciencesite.com/lsj/life1002/… , де автори стверджують, що " корисність для пристосування за допомогою псевдо-квадратного площі Макфаддена" (ρ2) використовується для підгонки загальної моделі. Макфадден запропонував ρ2 значення від 0,2 до 0,4 слід сприймати як дуже гарне пристосування моделі (Louviere et al., 2000). "
Метт Райхенбах

4
У моєму закладі є електронна копія Louviere et al (2000). "Заявлені методи вибору: аналіз та програми". Cambridge University Press. Це посилання, яке Лі (Life Science Journal) цитує для rho-квадрата в {0.2-0.4} = "VG fit". На сторінці 55 Лув'є (пов'язане з рівнянням 3.32) ми бачимо наступну цитату: "Значення r-квадрата між 0,2-0,4 вважаються вказівками на надзвичайно хороші пристосування моделі. Моделювання Доменіча та Макфаддена (1975) еквівалентності цього діапазону до 0,7 - 0,9 для лінійної функції ".
Кріс

4

У випадку, якщо комусь все ще цікаво знайти власне слово Макфаддена, ось посилання. У виносці Макфадден (1977, с.35) писав, що "значення від .2 до .4 для [ ] є відмінним пристосуванням". Документ доступний в Інтернеті.ρ2

http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.