Інтерпретація термінів взаємодії в логітній регресії з категоричними змінними


25

У мене є дані опитувального експерименту, в якому респонденти були випадковим чином віднесені до однієї з чотирьох груп:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Хоча три групи лікування дещо відрізняються залежно від застосованого подразника, головне розмежування, яке мене хвилює, - це контрольна та лікувальна групи. Тому я визначив фіктивну змінну Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

У ході опитування респондентів попросили (серед іншого) вибрати, яку з двох речей вони вважають за краще:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Потім, отримавши певний стимул, визначений їх групою лікування (і жоден, якщо вони були в контрольній групі), респондентам було запропоновано вибрати одне і те ж саме:

> summary(df$Choice)
  A    B 
149  101 

Хочу знати, чи перебування в одній із трьох груп лікування впливало на вибір, який зробили респонденти в цьому останньому запитанні. Моя гіпотеза полягає в тому, що респонденти, які отримали лікування, швидше вибирають, Aніж B.

З огляду на те, що я працюю з категоричними даними, я вирішив застосувати регресію logit (не соромтесь звучати, якщо ви вважаєте, що це неправильно). Оскільки респонденти були призначені випадковим чином, я маю враження, що мені не обов’язково потрібно контролювати інші змінні (наприклад, демографічні показники), тому я залишив їх поза цим питанням. Моєю першою моделлю було просто наступне:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Я маю враження, що перехоплення, що є статистично значущим, не є тим, що має інтерпретаційне значення. Можливо, я подумав, що я повинен включати термін взаємодії таким чином:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Зараз статус респондентів у групі лікування має очікуваний ефект. Це був дійсний набір кроків? Як можна інтерпретувати термін взаємодії ControlFALSE:PreferA? Чи інші коефіцієнти все ще мають коефіцієнт журналу?


Моя відповідь тут відповідна: stats.stackexchange.com/questions/246873/…
kjetil b halvorsen

Відповіді:


31

Я припускаю, що PreferA = 1, коли один віддавав перевагу A і 0 в іншому випадку, а ControlFALSE = 1 при обробці, а 0 - при контролі.

Шанси надати перевагу A, коли людина не робила цього раніше і не отримувала лікування (ControlFALSE = 0 і PreferA = 0), , тобто є 23 такі особи, які віддають перевагу A для кожної такої людини що віддає перевагу Б. Отже, A дуже популярний.досвід(3.135)=23

Ефект трактування стосується того, хто раніше не віддав перевагу A (PreferA = 0). У цьому випадку базовий коефіцієнт зменшується на коефіцієнт або коли він або він піддається лікуванню. Тож шанс вибору А для тих, хто лікувався і не віддав перевагу А, раніше є , тож існує 2,3 таких, хто вважає за краще А для кожної такої людини, яка віддає перевагу Б. Отже, серед цієї групи А все ще популярніший ніж B, але менше, ніж у групі, що не лікується / на початковому рівні.( 1 - .099 ) × 100 % = - 90,1 % .099 23 = 2,3досвід(-2.309)=.099(1-.099)×100%=-90.1%.09923=2.3

Ефект від переваги A раніше стосується людини, яка є контролем (ControlFALSE = 0). У цьому випадку базовий коефіцієнт зменшується на коефіцієнт або коли хтось перевагу А раніше. (Тож ті, хто раніше перешкоджав "А", набагато рідше це роблять зараз. Це має сенс?)- 99,4 %.006-99.4%

Ефект взаємодії порівнює ефект лікування для тих осіб, які раніше віддавали перевагу А та тих, хто цього не робив. Якщо людина віддавала перевагу A раніше (PreferA = 1), коефіцієнт шансів на лікування збільшується на коефіцієнт . Тож коефіцієнт шансів на лікування для тих, кому раніше було перевагу А, становить . Альтернативно, цей коефіцієнт шансів на лікування для тих, які раніше мали перевагу А, можна обчислити як .17.3 × .099 = 1,71 досвіду ( 2.850 - 2.309 )досвід(2.850)=17.317.3×.099=1,71досвід(2.850-2.309)

Отже, експонентована константа дає вам базові шанси , коефіцієнти експоненцію основних ефектів дають вам коефіцієнти шансів, коли інша змінна дорівнює 0, а коефіцієнт коефіцієнта взаємодії говорить про коефіцієнт, на який змінюється коефіцієнт шансів .


Дякую вам, Маартен, це дуже корисно, як і ваша відповідь на моє інше споріднене питання. Мені б хотілося трохи уточнити один момент. Як я нагадав у своєму іншому запитанні, я стурбований статистичною обґрунтованістю того, що я зробив тут, через те, що ControlFALSEв першій моделі високе значення p, а потім у другій моделі. Застосовуючи свою відповідь на моє інше питання до цього конкретного випадку, ви сказали, що це може статися, якщо Controlматиме негативний вплив на одну групу Preferта позитивно вплине на іншу.
Пігмаліон

(не вистачало місця) Чи має сенс тут тлумачення? Я не зовсім впевнений, як правильно його застосувати.
Пігмаліон

Ефект ControlFALSEу першій моделі - це ефект лікування як для тих, хто є кращим А, так і тих, хто цього не зробив, тоді як ефект у другій моделі є лише ефектом лікування для тих, хто раніше не віддав перевагу А. Чи це нормально чи ні, це не є статистичним питанням, але чи має це суттєве значення.
Maarten Buis

@MaartenBuis Чудове пояснення. Як би ви зробили рівнозначні обчислення для довірчих інтервалів оцінок? Для зручності інтерпретації я загалом стратифікував логістичні моделі (наприклад, за попередньою перевагою в цьому прикладі) і використовую термін взаємодії як "статистичний тест на значну різницю в АБО. Чи прийнятний це?
bobmcpop

2

Я також вважав цей документ корисним для інтерпретації взаємодії в рамках логістичної регресії:

Chen, JJ (2003). Комунікація складної інформації: інтерпретація статистичної взаємодії в аналізі множинних логістичних регресій . Американський журнал громадського здоров’я , 93 (9), 1376-1377.


4
Я надав повну довідку (назва, автор, дата, журнал тощо), що означає, що внесок все ще буде корисним, якщо зміниться адреса посилання. Але ви могли б розширити його, щоб узагальнити вміст? Інакше це справді скоріше коментар, ніж відповідь - ми вважаємо за краще, щоб наші відповіді були самодостатніми, тому вони стійкі до "гниття посилань". Або ми можемо перетворити це в коментар для вас.
Срібна рибка

Спасибі. Я пов'язував NCBI, тому я думав, що це буде добре. Я згоден із змінами. Спасибі!
deepseas

0

Моє власне перевагу, намагаючись інтерпретувати взаємодії в логістичній регресії, полягає в тому, щоб переглянути прогнозовані ймовірності для кожної комбінації категоричних змінних. У вашому випадку це було б лише 4 ймовірності:

  1. Віддайте перевагу A, керуйте правдою
  2. Віддайте перевагу A, контролюйте false
  3. Віддайте перевагу B, керуйте правдою
  4. Віддайте перевагу B, контролюйте false

Коли у мене є безперервні змінні, я зазвичай дивлюся на передбачуване значення на медіані, 1-му та 3-му квартилах.

Хоча це не трапляється безпосередньо при тлумаченні кожного коефіцієнта, я вважаю, що він часто дозволяє мені (і моїм клієнтам) чітко бачити, що відбувається.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.