Інтерпретація порядкової логістичної регресії


17

Я провів цю порядкову логістичну регресію в R:

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

Я отримав цей підсумок моделі:

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633 

Я можу отримати коефіцієнт коефіцієнта журналу для mpgтакого:

exp(coef(mtcars_ordinal))
 mpg 
0.7917679 

І коефіцієнт порогів журналу, таких як:

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353 

Може хтось скаже мені, чи моє тлумачення цієї моделі правильне:

Зі mpgзбільшенням на одну одиницю шанс переходу з категорії 1 carbв будь-яку з інших 5 категорій зменшується на -0,23. Якщо коефіцієнт журналу перевищить поріг 0,0015, то передбачуване значення для машини буде категорією 2 carb. Якщо коефіцієнт журналу перетне поріг 0,0121, то передбачуване значення для автомобіля буде категорією 3 carbтощо.

Відповіді:


10

Ви прекрасно переплутали шанси та коефіцієнти журналу. Коефіцієнти журналу - коефіцієнти; шанси є коефіцієнтами експоненції. Крім того, інтерпретація шансів йде навпаки . (Я виріс із економетрикою, розмірковуючи про обмежені залежні змінні, і шанси на інтерпретацію порядкової регресії для мене забавляють ... е-е-м ... смішно.) Отже, ваше перше твердження повинно читати: " mpg Збільшення на одну одиницю шанси спостереження за категорією 1 с carb порівняно з іншими 5 категоріями збільшується на 21% ".

Що стосується інтерпретації порогів, вам дійсно потрібно побудувати всі передбачені криві, щоб можна було сказати, що таке модальне передбачення:

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

введіть тут опис зображення

Синя крива для 3-ї категорії ніколи не піднімалася, а також фіолетова крива для 6-ї категорії. Тож, якщо що-небудь, я б сказав, що для значеньmpg вище 27 є найімовірніша категорія 1; від 18 до 27, категорія 2; від 4 до 18, категорія 4; і нижче 4, категорія 8. (Цікаво, що ви вивчаєте - комерційні вантажівки? Більшість легкових автомобілів у ці дні повинні мати mpg> 25). Ви можете спробувати визначити точки перетину точніше.

Я також помітив, що у вас є ці дивні категорії, які йдуть 1, 2, 3, 4, потім 6 (пропуск 5), потім 8 (пропуск 7). Якщо 5 і 7 бракували дизайну, це добре. Якщо це дійсні категорії, які carbпросто не підпадають, це не добре.


Зверніть увагу, як я використовував "перехід з 1-ї категорії вуглецю до будь-якої з інших 5 категорій". Це неправильно? Я з усіх сил намагаюся впоратися з "Збільшення mpg на одну одиницю, шанс на спостереження за категорією 1 вуглецю проти інших 5 категорій збільшується на 21%". Це означає , що якщо миль на галон збільшується приблизно на 5 одиниць, буде 100% шанс спостереження категорії 1. Але якщо миль на галон збільшилася на 5 одиниць, повинна бути вище ймовірність спостереження категорії 8, а не категоріями 1.
Luciano

3
Я додав фігуру; Я підозрював, що це полегшить інтерпретувати вашу відповідь - сподіваюся, вам це сподобається. (BTW, документація на ? Mtcars говорить, що дані є результатами випробувань 1974 року випуску Motor Trends .)
gung - Відновіть Моніку

Невже хтось може відповісти на останнє запитання Лучано? Я вважаю це дуже цікавим.
Еросеннін

1
mpg23134515

1
Оскільки polrмодель визначає, як logit P(Y <= k | x) = zeta_k - etaслід, якщо тлумачення @ Стаска не читається: " mpg Збільшення на одну одиницю шанси на спостереження за категорією 1 carb порівняно з іншими 5 категоріями збільшуються на 26% ( exp(-(-0.2335)) = 1.26)".
moremo

3

У впорядкованій моделі logit шанси формують відношення ймовірності перебування в будь-якій категорії нижче певного порогу проти ймовірності, що знаходиться в категорії, що перевищує той самий поріг (наприклад, з трьома категоріями: Імовірність перебування в категорії A або B vs C, а також ймовірність потрапляння в категорію А проти В або С).

Це призводить до моделі logit P(Y <= k | x) = zeta_k - eta, зазначеної в описі polr(). Тому коефіцієнти шансів можна будувати або для різних категорій, або для різних регресорів. Останній, більш поширений, порівнює коефіцієнти для одних і тих же категорій, але різні регресори та рівні

оггс(уак|ха)оггс(убк|хб) = досвід(-(ηа-ηб)).

Коефіцієнт шансів для різних категорій визначається як

оггс(уiк|хi)оггс(уiм|хi) = досвід(ζк-ζм),

при цьому коефіцієнт не залежить від регресорів. Ця властивість призводить до альтернативної моделі пропорційних іменних коефіцієнтів.

У цьому простому, але, можливо, не дуже інтуїтивно зрозумілому прикладі ви могли б сформулювати: Для регресора збільшиться одиниця mpg, шанси на спостереження 1-ї категорії проти спостереження за будь-якою вищою категорією (або шанси на спостереження за будь-якою категорією нижче певного порогу) спостерігаючи будь-яку категорію, що перевищує один і той же поріг) множать на 1,26 або збільшують на 26% ( exp(-(-0.233 - 0)) = 1.263). Якщо ви хочете сформувати коефіцієнт шансів у різних категоріях, ви можете, наприклад, сказати, що шанси на те, щоб бути в категорії 1 порівняно з будь-якою вище категорією порівняно з шансами на те, що ставляться до категорії 1 або 2 проти будь-якої категорії вище, дорівнює exp((-6.470) - (-4.415)) = 0.128. Таким чином, остання інтерпретація не є дуже корисною для цієї конкретної установки. Прикладом коефіцієнта шансів для різних категорій можуть бути шанси на вступ до коледжу порівняно з шансами на перехід до середньої школи.

Нарешті, вас може зацікавити, наскільки має змінитися пояснювальна змінна, щоб досягти наступної категорії вищих відповідей. Для цього ви порівнюєте інтервал довжини(ζк-ζк-1)з пристосованим коефіцієнтом. Це дає уявлення про те, наскільки великими повинні бути зміни у відповідному регресорі для переміщення відповіді з категоріїк до вищої категорії.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.