Коефіцієнти - це спосіб висловити шанси. Коефіцієнти шансів якраз такі: один шанс розділений на інший. Це означає, що коефіцієнт шансів - це те, на що ви помножуєте один шанс на отримання іншого. Подивимося, як вони працюють у цій загальній ситуації.
Перетворення між шансами та ймовірністю
Шанси двійкової відповіді Y - відношення шансу, що трапиться (зашифрований 1 ), записаного Pr(Y=1) , до шансу цього немає (закодовано з 0 ), записаного Pr(Y=0) :
Odds(Y)=Pr(Y=1)Pr(Y=0)=Pr(Y=1)1−Pr(Y=1).
Еквівалентний вираз справа показує, що достатньо для моделювання щоб знайти шанси. І навпаки, зауважте, що ми можемо вирішитиPr(Y=1)
Pr(Y=1)=Odds(Y)1+Odds(Y)=1−11+Odds(Y).
Логістична регресія
Логістична регресія моделює логарифм коефіцієнтів як лінійну функцію пояснювальних змінних. Найбільш загально, записуючи ці змінні як x 1 , … , x p і включаючи можливий постійний член у лінійну функцію, ми можемо назвати коефіцієнти (які слід оцінювати з даних) як β 1 , … , β p і β 0 . Формально це виробляє модельYx1,…,xpβ1,…,βpβ0
log(Odds(Y))=β0+β1x1+⋯+βpxp.
Самі шанси можна відновити, скасувавши логарифм:
Odds(Y)=exp(β0+β1x1+⋯+βpxp).
Використання категоричних змінних
Категоричні змінні, такі як вікова група, стать, наявність глаукоми тощо , включаються за допомогою "фіктивного кодування". Щоб показати, що спосіб кодування змінної не має значення, я наведу простий приклад однієї невеликої групи; його узагальнення на кілька груп повинно бути очевидним. У цьому дослідженні одна змінна - «розмір зіниці», яка містить три категорії: «Великий», «Середній» та «Малий». (Дослідження трактує це як суто категоричне, очевидно, не звертаючи уваги на притаманний їм порядок.) Інтуїтивно, кожна категорія має свої шанси, скажімо, для "Large", α M для "Середнього" та α S для "Small" . Це означає, що всі інші речі рівні,αLαMαS
Odds(Y)=exp(αL+β0+β1x1+⋯+βpxp)
для когось із категорії "Великі",
Odds(Y)=exp(αM+β0+β1x1+⋯+βpxp)
для когось із категорії "Середній" та
Odds(Y)=exp(αS+β0+β1x1+⋯+βpxp)
для тих, хто в категорії "Малий".
Створення ідентифікуючих коефіцієнтів
Я пофарбував перші два коефіцієнти, щоб виділити їх, тому що я хочу, щоб ви помітили, що вони дозволяють відбутися простої зміни: ми могли вибрати будь-яке число і, додавши його до β 0 і віднісши його від кожного з α L , α M і α S , ми б не змінити які - або прогнозні коефіцієнти. Це пояснюється очевидною еквівалентністю формиγβ0αLαMαS
αL+β0=(αL−γ)+(γ+β0),
І хоча це не представляє проблем для моделі - вона все ще передбачає абсолютно ті самі речі - це показує, що параметри самі по собі не можуть бути інтерпретовані. Те, що ми виконуємо цей маневр додавання-віднімання, - це різниці між коефіцієнтами. Умовно, щоб вирішити цю недостатність ідентифікованості, люди (і за замовчуванням програмне забезпечення) обирають одну з категорій кожної змінної як "базу" або "посилання" і просто зазначають, що її коефіцієнт буде нульовим. Це знімає неоднозначність.
У статті спочатку перераховані довідкові категорії; "Великий" у цьому випадку. Таким чином, віднімається з кожної з & alpha ; L , α M , і α S , і додають до & beta ; 0 , щоб компенсувати.αLαL,αM,αSβ0
Коефіцієнт журналу для гіпотетичного індивіда, що потрапляє до всіх базових категорій, тому дорівнює плюс купу термінів, пов'язаних з усіма іншими "коваріатами" - некотегоричними змінними:β0
Odds(Base category)=exp(β0+β1X1+⋯+βpXp).
Тут не відображаються терміни, пов'язані з будь-якими категоричними змінними. (Я дещо змінив позначення в цей момент: бета тепер є коефіцієнтами лише коваріатів , тоді як повна модель включає альфа α j для різних категорій.)βiαj
Порівнюючи шанси
Порівняймо шанси. Припустимо, гіпотетична особа - це а
пацієнт чоловічої статі віком 80–89 років з білою катарактою, відсутністю фундаментального вигляду та маленьким вихованцем, яким оперує спеціаліст-реєстратор, ...
α80-89αmale
α80-89+αmale+αno Glaucoma+⋯+αspecialist registrar.
Це саме та сума, на яку шанси журналу цього пацієнта різняться від базового. Щоб конвертувати з журнальних коефіцієнтів, скасуйте логарифм і нагадайте, що це перетворює додавання в множення. Тому базові шанси необхідно помножити на
exp(α80-89)exp(αmale)exp(αno Glaucoma)⋯exp(αspecialist registrar).
x1,…,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αno Glaucoma)=1.0034.5
Odds(Charlie)=34.5×Odds(Base).
1.00=exp(0)1 у продукт залишає його незмінним. Ось так ви можете помітити базові категорії в таблиці.)
Перезавантаження результатів як ймовірностей
0.736%=0.00736
Odds(Base)=0.007361−0.00736=0.00741.
Отже, шанси Чарлі є
Odds(Charlie)=34.5×0.00741=0.256.
Нарешті, перетворення цього назад у ймовірності дає
Pr(Y(Charlie)=1)=1−11+0.256=0.204.