Допоможіть мені зрозуміти скориговане співвідношення шансів у логістичній регресії


20

Мені важко намагатися зрозуміти використання логістичної регресії в роботі. Доступний тут документ використовує логістичну регресію для прогнозування ймовірності ускладнень під час операції на катаракті.

Мене бентежить те, що в роботі представлена ​​модель, яка призначає коефіцієнт шансів 1 до базової лінії, описану так:

Пацієнт, чий профіль ризику знаходився в референтній групі для всіх показників ризику (тобто скоригований АБО = 1,00 для всіх у таблиці 1), може вважатися таким, що має "базовий профіль ризику", а модель логістичної регресії вказує на "прогнозовану ймовірність базової лінії" для ПЛР або VL або обох = 0,736%.

Отже, ймовірність 0,00736 представлена ​​зі співвідношенням шансів 1. Виходячи з перетворення від коефіцієнта ймовірності в коефіцієнт шансів: o=p1p , це не може бути дорівнює 1: 0.00741=0.0073610.00736 .

Це стає ще більш заплутаним. Для обчислення прогнозованого ризику використовують складені коефіцієнти шансів, що представляють собою декілька коваріатів, що мають значення, відмінні від базових.

... складений АБО з Таблиці 1 буде 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5, а з графіку на малюнку 1 ми бачимо, що це АБО відповідає прогнозованій ймовірності ПЛР або VL або обох близько 20%

Єдиний спосіб дійти до значень, які наводить документ у якості прикладів - помножити ймовірність базової лінії на складені шанси на зразок цього: 0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736) .

То що тут відбувається? Яка логіка присвоєння коефіцієнта коефіцієнта 1 імовірності базової лінії, яка не дорівнює 0,5? Формула оновлення, яку я придумав вище, пропонує правильні ймовірності для прикладів у статті, але це не пряме множення коефіцієнта шансів, яке я очікував. Що це тоді?


8
У вас може виникнути проста плутанина щодо термінології: p/(1p) - це коефіцієнт шансів , а не коефіцієнт. Коефіцієнт шансів - це поділ одного такого виразу на інший.
whuber

Відповіді:


35

Коефіцієнти - це спосіб висловити шанси. Коефіцієнти шансів якраз такі: один шанс розділений на інший. Це означає, що коефіцієнт шансів - це те, на що ви помножуєте один шанс на отримання іншого. Подивимося, як вони працюють у цій загальній ситуації.

Перетворення між шансами та ймовірністю

Шанси двійкової відповіді Y - відношення шансу, що трапиться (зашифрований 1 ), записаного Pr(Y=1) , до шансу цього немає (закодовано з 0 ), записаного Pr(Y=0) :

Odds(Y)=Pr(Y=1)Pr(Y=0)=Pr(Y=1)1Pr(Y=1).

Еквівалентний вираз справа показує, що достатньо для моделювання щоб знайти шанси. І навпаки, зауважте, що ми можемо вирішитиPr(Y=1)

Pr(Y=1)=Odds(Y)1+Odds(Y)=111+Odds(Y).

Логістична регресія

Логістична регресія моделює логарифм коефіцієнтів як лінійну функцію пояснювальних змінних. Найбільш загально, записуючи ці змінні як x 1 , , x p і включаючи можливий постійний член у лінійну функцію, ми можемо назвати коефіцієнти (які слід оцінювати з даних) як β 1 , , β p і β 0 . Формально це виробляє модельYx1,,xpβ1,,βpβ0

log(Odds(Y))=β0+β1x1++βpxp.

Самі шанси можна відновити, скасувавши логарифм:

Odds(Y)=exp(β0+β1x1++βpxp).

Використання категоричних змінних

Категоричні змінні, такі як вікова група, стать, наявність глаукоми тощо , включаються за допомогою "фіктивного кодування". Щоб показати, що спосіб кодування змінної не має значення, я наведу простий приклад однієї невеликої групи; його узагальнення на кілька груп повинно бути очевидним. У цьому дослідженні одна змінна - «розмір зіниці», яка містить три категорії: «Великий», «Середній» та «Малий». (Дослідження трактує це як суто категоричне, очевидно, не звертаючи уваги на притаманний їм порядок.) Інтуїтивно, кожна категорія має свої шанси, скажімо, для "Large", α M для "Середнього" та α S для "Small" . Це означає, що всі інші речі рівні,αLαMαS

Odds(Y)=exp(αL+β0+β1x1++βpxp)

для когось із категорії "Великі",

Odds(Y)=exp(αM+β0+β1x1++βpxp)

для когось із категорії "Середній" та

Odds(Y)=exp(αS+β0+β1x1++βpxp)

для тих, хто в категорії "Малий".

Створення ідентифікуючих коефіцієнтів

Я пофарбував перші два коефіцієнти, щоб виділити їх, тому що я хочу, щоб ви помітили, що вони дозволяють відбутися простої зміни: ми могли вибрати будь-яке число і, додавши його до β 0 і віднісши його від кожного з α L , α M і α S , ми б не змінити які - або прогнозні коефіцієнти. Це пояснюється очевидною еквівалентністю формиγβ0αLαMαS

αL+β0=(αLγ)+(γ+β0),

І хоча це не представляє проблем для моделі - вона все ще передбачає абсолютно ті самі речі - це показує, що параметри самі по собі не можуть бути інтерпретовані. Те, що ми виконуємо цей маневр додавання-віднімання, - це різниці між коефіцієнтами. Умовно, щоб вирішити цю недостатність ідентифікованості, люди (і за замовчуванням програмне забезпечення) обирають одну з категорій кожної змінної як "базу" або "посилання" і просто зазначають, що її коефіцієнт буде нульовим. Це знімає неоднозначність.

У статті спочатку перераховані довідкові категорії; "Великий" у цьому випадку. Таким чином, віднімається з кожної з & alpha ; L , α M , і α S , і додають до & beta ; 0 , щоб компенсувати.αLαL,αM,αSβ0

Коефіцієнт журналу для гіпотетичного індивіда, що потрапляє до всіх базових категорій, тому дорівнює плюс купу термінів, пов'язаних з усіма іншими "коваріатами" - некотегоричними змінними:β0

Odds(Base category)=exp(β0+β1X1++βpXp).

Тут не відображаються терміни, пов'язані з будь-якими категоричними змінними. (Я дещо змінив позначення в цей момент: бета тепер є коефіцієнтами лише коваріатів , тоді як повна модель включає альфа α j для різних категорій.)βiαj

Порівнюючи шанси

Порівняймо шанси. Припустимо, гіпотетична особа - це а

пацієнт чоловічої статі віком 80–89 років з білою катарактою, відсутністю фундаментального вигляду та маленьким вихованцем, яким оперує спеціаліст-реєстратор, ...

α80-89αmale

α80-89+αmale+αno Glaucoma++αspecialist registrar.

Це саме та сума, на яку шанси журналу цього пацієнта різняться від базового. Щоб конвертувати з журнальних коефіцієнтів, скасуйте логарифм і нагадайте, що це перетворює додавання в множення. Тому базові шанси необхідно помножити на

exp(α80-89)exp(αmale)exp(αno Glaucoma)exp(αspecialist registrar).

x1,,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αno Glaucoma)=1.0034.5

Odds(Charlie)=34.5×Odds(Base).

1.00=exp(0)1 у продукт залишає його незмінним. Ось так ви можете помітити базові категорії в таблиці.)

Перезавантаження результатів як ймовірностей

0.736%=0.00736

Odds(Base)=0.0073610.00736=0.00741.

Отже, шанси Чарлі є

Odds(Charlie)=34.5×0.00741=0.256.

Нарешті, перетворення цього назад у ймовірності дає

Pr(Y(Charlie)=1)=111+0.256=0.204.

3
whuber: стати перед моїм комп’ютером після дуже втомливого попереднього дня і знайти цю надзвичайну відповідь від вас просто геніально. Ви мені дуже допомогли в дуже жорсткій ситуації. Велике дякую. (якось @ whuber не з’явиться…)
mahonya
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.