Інтерпретація простих прогнозів та коефіцієнтів шансів у логістичній регресії


29

Я дещо новачок у використанні логістичної регресії, і трохи збентежений розбіжністю між моїми інтерпретаціями наступних значень, які, на мою думку, були б однаковими:

  • експонентоване значення бета-версії
  • передбачувана ймовірність результату за допомогою бета-значень.

Ось спрощена версія моделі, якою я користуюсь, де недоїдання та страхування є бінарними, а багатство безперервним:

Under.Nutrition ~ insurance + wealth

Моя (фактична) модель повертає експоненційну бета-величину - .8 для страхування, яку я б інтерпретував як:

"Ймовірність недоїдання застрахованої фізичної особи в 0,8 рази перевищує ймовірність недоїдання для страхувальника."

Однак, коли я обчислюю різницю ймовірностей для фізичних осіб, додаючи значення 0 і 1 до страхової змінної та середнього значення для багатства, різниця у недоїданні становить лише 0,04. Це обчислюється так:

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

Я дуже вдячний, якби хтось міг пояснити, чому ці значення різні, і що може бути кращою інтерпретацією (особливо для другого значення).


Подальші зміни до роз'яснення
Як я розумію, ймовірність недоїдання для страхувальника (де B1 відповідає страхуванню):

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

Хоча ймовірність недоїдання для застрахованої особи є:

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

Шанси недоїдання для незастрахованої особи порівняно із застрахованою особою є:

exp(B1)

Чи є спосіб перекласти між цими значеннями (математично)? Я все ще трохи збентежений цим рівнянням (де я, мабуть, повинен бути іншим значенням на RHS):

Prob(Ins) - Prob(Unins) != exp(B)

З точки зору неспеціаліста, питання полягає в тому, чому страхування людини не змінює свою ймовірність недоїдання настільки, наскільки коефіцієнт шансів свідчить про це? За моїми даними, Prob (Ins) - Prob (Unins) = .04, де показник бета-експоненції становить .8 (так чому різниця не .2?)


2
Чи ці чудові і чіткі пояснення застосовні до логістично-логістичних моделей / регресій?

Відповіді:


50

Мені здається само собою зрозумілим, що якщо . Отже, мені менш зрозуміло, яка може бути плутанина. Що я можу сказати, це те, що ліва сторона (LHS) знаку (не) дорівнює - шанси недоїдання, тоді як РЗС - це ймовірність недоїдання. Якщо досліджувати самостійно, - це коефіцієнт шансів , тобто мультиплікативний коефіцієнт, який дозволяє переходити від шансів ( ) до шансів ( ).

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
exp ( β 1 ) x x + 1exp(β0+β1x)=0exp(β1)xx+1

Повідомте мене, якщо вам потрібна додаткова / інша інформація.

Оновлення:
Я думаю, що це, головним чином, питання незнайомих імовірностей та шансів, а також того, як вони стосуються один одного. Ніщо з цього не є дуже інтуїтивно зрозумілим, вам потрібно посидіти і попрацювати з ним деякий час і навчитися думати в цих термінах; це природно нікому не приходить.

Проблема полягає в тому, що абсолютні числа дуже важко інтерпретувати самостійно. Скажімо, я розповідав вам про час, коли у мене була монета, і я цікавився, чи справедливо це. Тому я перевернув його і отримав 6 голів. Що це означає? Це 6, мало, приблизно так? Це жахливо важко сказати. Для вирішення цього питання ми хочемо дати числу деякий контекст. У такому випадку є два очевидних варіанти, як забезпечити необхідний контекст: я міг би дати загальну кількість обертів, або я міг дати кількість хвостів. У будь-якому випадку у вас є достатня інформація, щоб мати сенс на 6 голів, і ви можете обчислити інше значення, якби той, про який я вам сказав, був не той, кого ви віддаєте перевагу. Ймовірність - це кількість голів, поділене на загальну кількість подій. Коефіцієнт - відношення кількості голів до кількостінеголові (інтуїтивно ми хочемо сказати кількість хвостів, що працює в цьому випадку, але не, якщо є більше 2 можливостей). З коефіцієнтами можна дати обидва числа, наприклад, 4 до 5. Це означає, що в кінцевому рахунку щось відбуватиметься 4 рази на кожні 5 разів, що не відбувається. Коли шанси представлені таким чином, вони називаються " шанси в Лас-Вегасі ". Однак у статистиці ми, як правило, розбиваємося і кажемо, що шанси натомість дорівнює .8 (тобто 4/5 = .8) для цілей стандартизації. Ми також можемо конвертувати між шансами та ймовірностями: exp(β)

probability=odds1+odds                odds=probability1probability
(За допомогою цих формул може бути важко визнати, що шанси є LHS вгорі, а ймовірність - RHS, але пам’ятайте, що це знак не рівний посередині.) Коефіцієнт шансів - це лише шанс чогось поділити на шанси чогось іншого; в контексті логістичної регресії кожен - відношення шансів на послідовні значення асоційованого коваріату, коли всі інші дорівнюють рівним. exp(β)

Що важливо визнати з усіх цих рівнянь, це те, що коефіцієнти ймовірностей, коефіцієнтів та коефіцієнтів не співпадають прямо; тільки тому, що ймовірність збільшується на .04, не означає, що коефіцієнт шансів чи шансів повинен бути чимось подібним до .04! Більше того, ймовірності коливаються від , тоді як шанси ln (вихід із сировинного логістичного рівняння регресії) можуть коливатися від , а коефіцієнти шансів і шансів можуть коливатися від . Ця остання частина життєво важлива: Через обмежений діапазон ймовірностей ймовірності нелінійні , але шанси ln можуть бути лінійними. Тобто як (наприклад)[0,1](,+)(0,+)wealthзростає постійними приростами, ймовірність недоїдання зростатиме різними сумами, але шанси на ln збільшуватимуться на постійну суму, а шанси збільшуватимуться на постійний мультиплікативний коефіцієнт. Для будь-якого заданого набору значень у вашій моделі логістичної регресії може бути деякий момент, коли для деяких заданих та , але це буде неоднаково скрізь ще. xx

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(Хоча це було написано в контексті іншого запитання, моя відповідь тут містить багато інформації про логістичну регресію, яка може бути корисною для розуміння LR та пов'язаних з цим питань.)


Дякую за відповідь - я далі пояснив свою плутанину у редакції вище.
Майк

Дуже вдячний витратити час, щоб написати повне пояснення - дуже корисно.
Майк

Вас вітає, @mike, саме для цього і є резюме.
gung - Відновіть Моніку

Про посилання на шанси у Лас-Вегасі : я ніколи не був у Вегасі, але шукаю деякі ціни, пропоновані веб-сайтами, що базуються в Вегасі, де вони наводять дробові шанси (на відміну від грошової лінії), вони дотримуються британської системи "шансів проти", а не статистичні "шанси на користь". Таким чином, "шанси в Лас-Вегасі" на вашому посиланні не відповідають фактичним шансам на азартні ігри, де "9 на 1" є малоймовірною подією, а не (як "9 до 1" означає статистику) ймовірною! До джерела плутанини я намагаюся звернутися тут
Silverfish

@Silverfish, я давно не був у Лас-Вегасі. Я не пам'ятаю, чи вони зазвичай перераховують коефіцієнти "проти" чи "проти". Тим не менш, "4 на 5" називається шансами в Лас-Вегасі .
gung - Відновіть Моніку

0

Ну, відповідь проста, коли ви готові підтримувати постійні всі змінні та змінювати одну змінну. Однак це стає трохи складнішим моментом, коли кожна змінна змінюється. Ви можете подивитися наступне повідомлення, це може допомогти http://analyticspro.org/2016/03/02/r-tutorial-multiple-linear-regression/


-1

Коефіцієнт шансів OR = Exp (b) перекладається на ймовірність A = SQRT (OR) / (SQRT (OR) +1), де ймовірність A - це ймовірність події A, або OR - відношення події A, що відбувається / не відбувається події A (або піддаються / не піддаються страхуванню, як зазначено вище). На це мені знадобилося досить багато часу; Я не впевнений, чому це невідома формула.

Є приклад. Припустимо, до університету прийнято 10 осіб; 7 з них - чоловіки. Отже, для кожного чоловіка на 70% вірогідність бути прийнятим. Коефіцієнти, які слід приймати для чоловіків, становлять 7/3 = 2,33, а не допускати 3/7 = 0,43. Коефіцієнт шансів (АБО) становить 2,33 / 0,43 = 5,44, що означає, що для чоловіків у 5,44 рази більший шанс бути прийнятим, а не для жінок. Знайдемо ймовірність бути допущеною для людини з АБО: P = SQRT (5.44) / (SQRT (5.44) +1) = 0.7

Оновлення Це справедливо лише в тому випадку, якщо кількість прийнятих чоловіків або жінок дорівнює кількості заявників. Іншими словами, це не АБО. Ми не можемо знайти приріст (або втрати) ймовірності залежить від фактору, не знаючи додаткової інформації.


Неправильно боюся: у цьому прикладі ми можемо оцінити шанси (та ймовірність) того, що хтось, хто вступив до університету, є чоловіком (або жінкою), але немає коефіцієнтів шансів, не знаючи також, скільки чоловіків і жінок було серед здобувачів . Неправильно боюся: у цьому прикладі ми можемо оцінити шанси (та ймовірність) того, що хтось, хто вступив до університету, є чоловіком (або жінкою), але немає коефіцієнтів шансів, не знаючи також, скільки чоловіків і жінок було серед здобувачів . Те, що ви тут називаєте АБО, насправді є лише коефіцієнтами . 7232
Scortchi

Так, ви абсолютно праві, дякую. Я виявив, що ми не можемо перетворити відомий АБО (який ми отримуємо, наприклад, як логістичний регресійний вихід) у приріст та втрати ймовірностей, не знаючи інформації про попередні ймовірності. Я вкладаю оновлення у свою відповідь.
Нікср
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.