Яке значення коефіцієнтів логістичної регресії?


42

Зараз я читаю документ про місце голосування та перевагу голосування на виборах 2000 та 2004 років. У ній є діаграма, яка відображає коефіцієнти логістичної регресії. З курсів років назад і трохи читаючи, Я розумію, що логістична регресія є способом опису взаємозв'язку між декількома незалежними змінними та бінарною змінною відповіді. Що мене бентежить, це враховуючи таблицю нижче, оскільки на Півдні є коефіцієнт логістичної регресії - .903, чи означає це, що 90,3% південників проголосують за республіканський? Через логістичний характер метрики цього прямого співвідношення не існує. Натомість я припускаю, що ви можете сказати лише те, що південь, з .903, голосує за республіканців більше, ніж за гори / рівнини, з регресом на .506. З огляду на останнє, як я можу знати, що є значущим, а що ні, і чи можливо екстраполювати відсоток республіканських голосів, враховуючи цей коефіцієнт логістичної регресії. Таблиця, що показує коефіцієнти логістичної регресії

Як бічну примітку, будь ласка, відредагуйте мою публікацію, якщо щось зазначено неправильно


Це скоріше подальший запит (і я, мабуть, не повинен його публікувати), але ви знайшли хороший спосіб "чи можна екстраполювати відсоток", тому що це майже все, що я шукаю.
Стефан Андерссон

2
Я думаю, що вам було б краще сформулювати це як окреме питання і опублікувати його окремо, а не як відповідь тут.
кардинал

Якщо хтось задається питанням про папір, це СК Маккі та Дж. М. Тейген " Зондування червоних та блюз": секціонізм та місцезнаходження виборців на виборах президента США 2000 та 2004 років (2009) Політична географія
Алекс Нельсон

Відповіді:


36

Те , що автор змусив кого - то , як вдумливі , як ви , щоб задати питання , як це переконливі ілюстрації того , чому практика - ще шлях надто часто - утримує звітність результатів регресійній моделі в таблицю , як це так неприйнятно.

  1. Ви можете, як вказувалося, спробувати перетворити коефіцієнт логіти в деяку змістовну вказівку на оцінку ефекту для відповідного прогноктора, але це громіздко і не передає інформацію про точність прогнозування, що, як правило, досить важливо в логістична модель регресії (зокрема, про голосування).

  2. Також використання декількох зірочок для повідомлення про "рівні" значущості підсилює помилкове уявлення про те, що p-значення - це якийсь змістовний показник розміру ефекту ("уау - у того є 3 зірочки !!"); для плачу вголос, з / п від 10 000 до 20 000, абсолютно тривіальні відмінності будуть "значущими" при p <0,001 бла.

  3. Нічого не потрібно містифікувати таким чином. Модель логістичної регресії - це рівняння, яке може бути використане (через детермінований розрахунок або ще краще моделювання) для прогнозування ймовірності результату, обумовленого визначеними значеннями для прогнокторів, за умови помилки вимірювання. Тож дослідник повинен звітуватиякий вплив прогнозів, що цікавлять, на ймовірність результатної змінної інтересу та пов'язаних з ними ІС, виміряних в одиницях, практичне значення яких можна легко зрозуміти. Щоб забезпечити готове розуміння, результати повинні бути графічно відображені. Ось, наприклад, дослідник міг би повідомити, що існування села на відміну від міського виборця збільшує ймовірність голосування за республіканця, все інше рівне, на X pct балів (я здогадуюсь близько 17 в 2000 році; "розділити на 4" розумний евристичний) +/- x% при рівні впевненості 0,95 - якщо це щось корисне знати.

  4. Повідомлення про псевдо R ^ 2 також є ознакою того, що модельєр займається статистичним ритуалом, а не будь-якою спробою висвітлення. Є безліч способів обчислити "псевдо R ^ 2"; можна поскаржитися, що той, що використовується тут, не вказаний, але навіщо турбуватися? Усі поруч безглузді. Єдиною причиною, коли хто використовує псевдо R ^ 2, є те, що вони або рецензент, який їх катує, дізналися (ймовірно, 25 і більше років тому), що лінійна регресія OLS - це святий граал статистики і думає, що єдине, що коли-небудь намагається з'ясувати. "пояснюється дисперсія". Існує безліч захищених способів оцінки адекватності загальної моделі, придатної для логістичного аналізу, а коефіцієнт ймовірності передає змістовну інформацію для порівняння моделей, що відображають альтернативні гіпотези. Кінг, Г. Як не брехати зі статистикою. Am. Дж. Пол. Наук. 30, 666–687 (1986).

  5. Якщо ви читаєте документ, в якому звітність більш-менш обмежена до такої таблиці, не плутайте її, не залякуйте і, безумовно, не вражайте; натомість зліться і скажіть досліднику, що він чи вона робить тугу роботу (особливо, якщо він чи вона забруднює ваше місцеве інтелектуальне середовище з / містикою та побоюванням - дивовижно, скільки повністю посередніх мислителів обманюють розумних людей думати, що вони знають щось просто б / c вони можуть скласти таблицю, яку останні не можуть зрозуміти). Про розумні та помірковані викладення цих ідей див. Кінг, Г., Томц, М. та Віттенберг., Дж . Найкращі результати статистичного аналізу: вдосконалення інтерпретації та викладу . Am. Дж. Пол. Наук. 44, 347-361 (2000); and Gelman, A., Pasarica, C. & Dodhia, R.Давайте практикуємо те, що ми проповідуємо: перетворення таблиць у графіки . Am. Стат. 56, 121-130 (2002).


19

Ідея тут полягає в тому, що в рамках логістичної регресії ми прогнозуємо не фактичну ймовірність того, що, скажімо, південник голосує за республіканця, а трансформовану його версію, "шаблони журналу". Замість ймовірності ми маємо справу з і знаходимо коефіцієнти лінійної регресії для коефіцієнтів журналу.plogp/(1p)

Так, наприклад, припустимо, що міський північний схід має ймовірність 0,3 проголосувати за республіканця. (Це, звичайно, буде частиною регресії; я не бачу, що про це повідомляється в цій таблиці, хоча я припускаю, що це в оригінальній статті.) Тепер дає ; тобто , "коефіцієнти журналу", відповідні . Ці "журнальні коефіцієнти" - це те, що поводиться лінійно; коефіцієнт журналу, що відповідає становить . Таким чином, шанси журналу для міського голосування на південному південнику є республіканським (те, що Вікіпедія називає перехопленням, ) плюс коефіцієнт логістичної регресії для Півдня,x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.903 - тобто . Але ви хочете реальної ймовірності, тому нам потрібно перевернути функцію . Це дає . Фактичні шанси зросли від до , до ; відношення є , експоненція коефіцієнта логістичної регресії.0.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

Крім того, наслідки для, скажімо, регіону країни та міста / приміських / сільських районів не взаємодіють. Таким чином, шанси на сільський півзахідник, який голосує за республіканця, скажімо, становить відповідно до цієї моделі; ймовірність .f ( 0,20 ) = 1 / ( 1 + e - 0,20 ) = 0,550.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
евристичний: ділити на 4 - коефіцієнт logit / 4 є приблизно pct-pt розрізнення в задачі. від 1 одиниці зміни. Це не те саме, що говорити "людина w / βsubn charcteristic = z - x% ймовірно." Не тільки (як зазначалося) потрібно додати βsub0 & відняти ймовірність, пов'язану з класом ref. Необхідно також враховувати колінеарність предиктора. Будучи південним, корелює з іншими прогнозами, це не відповідає дійсності. південніше голосування республіки βsub0 - трансформовані коефіцієнти журналу для NE плюс трансформовані коефіцієнти журналу для півдня. Краще сказати, "все інше рівне, будучи з півдня, прогнозує зміну точки пункту в
пробі

1
"Фактичні шанси пішли від 0,43 до 1". Чи були в першу чергу 0,43?
Моніка Хеднек

Початкова ймовірність , виражена у вигляді шансів, становить . 0,3 / ( 1 - 0,3 ) 0,430.30.3/(10.3)0.43
Майкл Луго

6

Коефіцієнти в логістичній регресії представляють тенденцію голосу республіканців / демографічних осіб у порівнянні з референтною категорією. Позитивний коефіцієнт означає, що регіон швидше голосує за республіканця, і навпаки за негативний коефіцієнт; більша абсолютна величина означає сильнішу тенденцію, ніж менша величина.

Опорними категоріями є "Північний Схід" та "Міський виборець", тому всі коефіцієнти представляють протиставлення саме цьому типу виборців.

Загалом, також немає обмежень на коефіцієнти в логістичній регресії, які мають бути [0, 1], навіть в абсолютній величині. Зауважте, що у самій статті Вікіпедії є приклад логістичної регресії з коефіцієнтами -5 і 2.


5

Ви також запитали "як я знаю, що є значущим, а що ні". (Я припускаю, що ви маєте на увазі статистично значущі, оскільки практичне або змістовне значення - інша справа.) Зірочки в таблиці посилаються на виноску: деякі ефекти відзначаються як такі, що мають невеликі р-значення . Вони отримані за допомогою тесту Вальда на значення кожного коефіцієнта. Якщо припустити випадкову вибірку, p <0,05 означає, що якби у більшої популяції такого ефекту не було, ймовірність побачити зв’язок, такий сильний, як спостережуваний або сильніший, у вибірці такого розміру була б меншою ніж .05 . На цьому веб-сайті ви побачите багато ниток, які обговорюють тонкий, але важливий пов'язаний момент, якого p <.05 не має означають, що існує .05 ймовірність відсутності зв'язку у великій кількості населення.


5

Дозвольте лише наголосити на важливості того, що відмітили обидва rolando2 та dmk38: важливість - це неправильне прочитання, і існує високий ризик того, що відбудеться під час табличного представлення результатів.

Пол Шродт нещодавно запропонував приємний опис питання:

Дослідники вважають, що майже неможливо дотримуватися правильної інтерпретації тесту на значимість. Значення р говорить вам лише про ймовірність того, що ви отримаєте результат за [зазвичай] цілком нереальних умов нульової гіпотези. Що не є тим, що ви хочете знати - ви, як правило, хочете знати масштабність ефекту незалежної змінної з урахуванням даних. Це байєсівське питання, а не часте питання. Натомість ми бачимо - постійно - значення p тлумачиться так, ніби воно дає силу асоціації: це всюдисущий Містичний культ зірок і Р-Значень, який пронизує наші журнали. (Fn) Це не те, що говорить p-значення , і ніколи не буде.

На мій досвід, цієї помилки майже неможливо уникнути: навіть дуже обережні аналітики, які цілком усвідомлюють проблему, часто переключаться на режими, під час усного обговорення їх результатів, навіть якщо вони уникали проблеми в письмовій викладі. І давайте навіть не спекулювати на тисячах годин і галонах чорнила, які ми витратили на виправлення цього в випускних роботах.

(fn) Зноска також повідомляє про інше питання, про яке згадує dmk38: "[всюдисущий містичний культ зірок і P-цінностей] витіснився раніше - і настільки всепроникний - Культ Найвищого R2, знесений ... Кінг (1986) . "


о-- я тільки що додав Кінга, щоб відповісти на свою відредаговану відповідь. Стаття дійсно знищує манію R ^ 2 (все ще ендемічна для економетрики), навіть якщо статистика має значення - для регресії OLS. Кінг також зазначає, що псевдо R ^ 2 - це гнучкість, яка була створена для розширення бездумності, пов'язаної з "поясненою дисперсією".
dmk38
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.