Інтерпретація бета-версій, коли є кілька категоричних змінних


18

Я розумію поняття, що - це середнє значення, коли категоріальна змінна дорівнює 0 (або є еталонною групою), даючи кінцевій інтерпретації, що коефіцієнт регресії - це різниця середнього значення для двох категорій. Навіть із> 2 категоріями я вважаю, що кожна пояснює різницю між середньою категорією та посиланням.β^0β^

Але що робити, якщо в багатовимірну модель буде внесено більше змінних? Що тепер означає перехоплення, враховуючи, що він не має сенсу бути середнім для посилання двох категоричних змінних? Прикладом може бути те, якби гендер (M (ref) / F) та раса (білий (ref) / чорний) були в моделі. Чи означає значення лише для білих чоловіків? Як трактуються інші можливості?β^0

Як окрема примітка: чи контрастні висловлювання слугують способом дослідження модифікації ефекту? Або просто побачити ефект ( ) на різних рівнях?β^


Як термінологічна примітка, "багатоваріантний" означає множинні змінні відповіді , а не кілька змінних предикторів (див. Тут ). Крім того, я не стежу за вашим останнім запитанням.
gung - Відновіть Моніку

Дякую за це роз’яснення. Правильна мова для мене важлива! Я думаю, я просто не можу зрозуміти, чому контрастні висловлювання взагалі використовуються, оскільки завжди можна просто встановити контрольну змінну до тієї, проти якої протиставляється?
Рені

1
Я думаю, ви могли б просто продовжувати переозброєння моделі з різними еталонними рівнями. Я не впевнений, що це зручніше. З контрастами ви також можете вказати набір ортогональних контрастів або теоретично припущений контраст (A проти комбінації B&C) для тестування.
gung - Відновіть Моніку

Відповіді:


19

Ви маєте рацію щодо інтерпретації бета-версій, коли існує одна категоріальна змінна з рівнями. Якщо було декілька категоричних змінних (а терміна взаємодії не було), перехоплення ( ) - це середнє значення групи, що становить опорний рівень для обох (усіх) категоріальних змінних. Скориставшись своїм прикладом сценарію, розгляньте випадок, коли взаємодії немає, тоді бета: kβ 0β^0

  • β^0 : середня серед білих самців
  • β^Female : різниця між середнім значенням серед жінок і середнім рівнем чоловіків
  • β^Black : різниця між середнім значенням чорних та середнім значенням білих

Ми також можемо подумати про це з точки зору того, як обчислити різні засоби групи:

x¯White Males=β^0x¯White Females=β^0+β^Femalex¯Black Males=β^0+β^Blackx¯Black Females=β^0+β^Female+β^Black

Якби у вас був термін взаємодії, він буде доданий в кінці рівняння для чорних самок. (Інтерпретація такого терміна взаємодії досить суперечлива, але я проходжу його тут: Інтерпретація терміна взаємодії .)


Оновлення : Щоб уточнити мої моменти, давайте розглянемо приклад із консервами, зашифрований R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

введіть тут опис зображення

Засобами yцих категоричних змінних є:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Ми можемо порівняти відмінності між цими засобами та коефіцієнтами від пристосованої моделі:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

Що слід визнати у цій ситуації, це те, що без терміну взаємодії ми приймаємо паралельні лінії. Таким чином, Estimateдля (Intercept)цього середнього білих чоловіків. EstimateДля SexFemaleрізниці між середнім самок і середніми самцями. EstimateДля RaceBlackрізниці між середнім чорних і середнім білими. Знову ж таки, оскільки модель без терміна взаємодії передбачає, що ефекти суворо адитивні (лінії строго паралельні), середнє значення чорних жінок тоді є середнім серед білих самців плюс різниця між середнім значенням жінки та середнім значенням чоловіків плюс різниця між середнім значенням чорних та середнім значенням білих.


Дякую! Дуже чітко і корисно. В кінці ви згадуєте умови взаємодії. Якщо хтось робить термін взаємодії, то як це змінює бета (маючи на увазі нові бетаси від моделі терміна взаємодії)? Я знаю, що значення р для терміна взаємодії є важливим, але чи має значення термін взаємодії бета значущим тлумаченням? Ще раз дякую за допомогу!
Рені

1
У випадку взаємодії "головний ефект" бета-версії стосується лише відмінностей у межах базового рівня іншого фактора. Наприклад, - це лише різниця між та . β^Femalex¯White Malex¯White Female
gung - Відновити Моніку

Має сенс. Дякую! & це змінено з моделі без терміну взаємодії через термін взаємодії, що змінює основний ефект? Значення, якщо немає взаємодії, термін основної дії теоретично був би однаковий?
Renee

Якби ефект взаємодії становив рівно 0 (до нескінченних десяткових знаків) не тільки в сукупності, але і у вашій вибірці, бета-версія основного ефекту була б однаковою в моделі без вводу або без терміну взаємодії.
gung - Відновити Моніку

1
@ hans0l0, це було б краще як нове запитання, а не інформація, похована тут у коментарях; Ви можете посилатися на це для контексту. Якщо коротко, це середнє значення опорних рівнів, коли всі безперервні змінні = 0.
gung - Відновити Моніку

6

Насправді, як ви правильно вказали, у випадку однієї категоріальної змінної (з потенційно більше 2 рівнів) справді є середнім значенням посилання, а інший - різниця між значення цього рівня категорії та середнє значення еталону.β^0β^

Якщо ми трохи розширимо ваш приклад, щоб включити третій рівень до категорії гонок (скажімо, азіатський ) і вибрали Білий як орієнтир, то у вас буде:

  • β^0=x¯White
  • β^Black=x¯Blackx¯White
  • β^Asian=x¯Asianx¯White

У цьому випадку інтерпретація всіх є легкою, а знаходження середнього рівня будь-якого рівня категорії просто. Наприклад:β^

  • x¯Asian=β^Asian+β^0

На жаль, у випадку декількох категоричних змінних, правильне тлумачення перехоплення вже не є настільки зрозумілим (див. Примітку в кінці). Якщо є n категорій, кожна з декількома рівнями та одним еталонним рівнем (наприклад, білий та чоловічий у вашому прикладі), загальною формою перехоплення є:

β^0=i=1nx¯reference,i(n1)x¯,
де
x¯reference,i is the mean of the reference level of the i-th categorical variable,
x¯ is the mean of the whole data set

Інші є такими ж, як і для однієї категорії: вони є різницею середнього рівня цього рівня категорії та середнього рівня опорного рівня тієї ж категорії.β^

Якщо ми повернемося до вашого прикладу, ми отримаємо:

  • β^0=x¯White+x¯Malex¯
  • β^Black=x¯Blackx¯White
  • β^Asian=x¯Asianx¯White
  • β^Female=x¯Femalex¯Male

Ви помітите, що середнє значення для перехресних категорій (наприклад, білих самців ) немає в жодному з . Власне кажучи, ви не можете точно обчислити ці засоби за результатами такого типу регресії .β^

Причиною цього є те, що кількість змінних предиктора (тобто ) менше, ніж кількість перехресних категорій (якщо у вас більше 1 категорії), тому ідеальне пристосування не завжди можливо. Якщо ми повернемося до вашого прикладу, кількість предикторів дорівнює 4 (тобто та ), а кількість перехресних категорій - 6.β^β^0, β^Black, β^Asianβ^Female

Числовий приклад

Дозвольте запозичити у @Gung для числового прикладу консерви:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

У цьому випадку різні середні значення, які підуть під час обчислення є:β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Ми можемо порівняти ці цифри з результатами регресії:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

Як бачимо, різні оцінені за регресією, всі співпадають із формулами, наведеними вище. Наприклад, задається: що дає:β^β^0

β^0=x¯White+x¯Malex¯
1.5 + 5.333333 - 6.166667
# 0.66666

Зверніть увагу на вибір контрасту

Підсумкове зауваження з цієї теми, всі результати, обговорені вище, стосуються категоричних регресій із використанням контрастної обробки (тип контрасту за замовчуванням у R). Існують різні типи контрасту, які можна використовувати (зокрема Гельмерт і сума), і це змінило б інтерпретацію різних . Однак це не змінило б остаточних прогнозів від регресій (наприклад, передбачення для чоловіків-білих завжди однакове, незалежно від того, який тип контрасту ви використовуєте).β^

Мій особистий фаворит - сума контрасту, оскільки я вважаю, що інтерпретація краще узагальнюється, коли існує кілька категорій. Для цього типу контрасту не існує еталонного рівня, а точніше, посилання - це середнє значення для всієї вибірки, і у вас є такий :β^contr.sumβ^contr.sum

  • β^0contr.sum=x¯
  • β^icontr.sum=x¯ix¯

Якщо ми повернемося до попереднього прикладу, ви мали б:

  • β^0contr.sum=x¯
  • β^Whitecontr.sum=x¯Whitex¯
  • β^Blackcontr.sum=x¯Blackx¯
  • β^Asiancontr.sum=x¯Asianx¯
  • β^Malecontr.sum=x¯Malex¯
  • β^Femalecontr.sum=x¯Femalex¯

Ви помітите, що оскільки білі та чоловічі більше не є еталонними рівнями, їх вже не дорівнює 0. Факт, що це 0, є специфічним для контрастного лікування.β^contr.sum

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.