Насправді, як ви правильно вказали, у випадку однієї категоріальної змінної (з потенційно більше 2 рівнів) справді є середнім значенням посилання, а інший - різниця між значення цього рівня категорії та середнє значення еталону.β^0β^
Якщо ми трохи розширимо ваш приклад, щоб включити третій рівень до категорії гонок (скажімо, азіатський ) і вибрали Білий як орієнтир, то у вас буде:
- β^0= х¯Wч я т е
- β^Б л а в к= х¯Б л а в к- х¯Wч я т е
- β^A s i a n= х¯A s i a n- х¯Wч я т е
У цьому випадку інтерпретація всіх є легкою, а знаходження середнього рівня будь-якого рівня категорії просто. Наприклад:β^
- х¯A s i a n= β^A s i a n+ β^0
На жаль, у випадку декількох категоричних змінних, правильне тлумачення перехоплення вже не є настільки зрозумілим (див. Примітку в кінці). Якщо є n категорій, кожна з декількома рівнями та одним еталонним рівнем (наприклад, білий та чоловічий у вашому прикладі), загальною формою перехоплення є:
β^0= ∑нi = 1х¯r e fe r e n c e , i- ( n - 1 ) x¯,
де
х¯r e fe r e n c e , i - середнє значення опорного рівня i-ї категоріальної змінної,
х¯ - це середнє значення для всього набору даних
Інші є такими ж, як і для однієї категорії: вони є різницею середнього рівня цього рівня категорії та середнього рівня опорного рівня тієї ж категорії.β^
Якщо ми повернемося до вашого прикладу, ми отримаємо:
- β^0=x¯White+x¯Male−x¯
- β^Black=x¯Black−x¯White
- β^Asian=x¯Asian−x¯White
- β^Female=x¯Female−x¯Male
Ви помітите, що середнє значення для перехресних категорій (наприклад, білих самців ) немає в жодному з . Власне кажучи, ви не можете точно обчислити ці засоби за результатами такого типу регресії .β^
Причиною цього є те, що кількість змінних предиктора (тобто ) менше, ніж кількість перехресних категорій (якщо у вас більше 1 категорії), тому ідеальне пристосування не завжди можливо. Якщо ми повернемося до вашого прикладу, кількість предикторів дорівнює 4 (тобто та ), а кількість перехресних категорій - 6.β^β^0, β^Black, β^Asianβ^Female
Числовий приклад
Дозвольте запозичити у @Gung для числового прикладу консерви:
d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
y =c(0, 3, 7, 8, 9, 10))
d
# Sex Race y
# 1 Male White 0
# 2 Female White 3
# 3 Male Black 7
# 4 Female Black 8
# 5 Male Asian 9
# 6 Female Asian 10
У цьому випадку різні середні значення, які підуть під час обчислення є:β^
aggregate(y~1, d, mean)
# y
# 1 6.166667
aggregate(y~Sex, d, mean)
# Sex y
# 1 Male 5.333333
# 2 Female 7.000000
aggregate(y~Race, d, mean)
# Race y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5
Ми можемо порівняти ці цифри з результатами регресії:
summary(lm(y~Sex+Race, d))
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 0.6667 0.6667 1.000 0.4226
# SexFemale 1.6667 0.6667 2.500 0.1296
# RaceBlack 6.0000 0.8165 7.348 0.0180
# RaceAsian 8.0000 0.8165 9.798 0.0103
Як бачимо, різні оцінені за регресією, всі співпадають із формулами, наведеними вище. Наприклад, задається:
що дає:β^β^0
β^0=x¯White+x¯Male−x¯
1.5 + 5.333333 - 6.166667
# 0.66666
Зверніть увагу на вибір контрасту
Підсумкове зауваження з цієї теми, всі результати, обговорені вище, стосуються категоричних регресій із використанням контрастної обробки (тип контрасту за замовчуванням у R). Існують різні типи контрасту, які можна використовувати (зокрема Гельмерт і сума), і це змінило б інтерпретацію різних . Однак це не змінило б остаточних прогнозів від регресій (наприклад, передбачення для чоловіків-білих завжди однакове, незалежно від того, який тип контрасту ви використовуєте).β^
Мій особистий фаворит - сума контрасту, оскільки я вважаю, що інтерпретація краще узагальнюється, коли існує кілька категорій. Для цього типу контрасту не існує еталонного рівня, а точніше, посилання - це середнє значення для всієї вибірки, і у вас є такий :β^contr.sumβ^contr.sum
- β^contr.sum0=x¯
- β^contr.sumi=x¯i−x¯
Якщо ми повернемося до попереднього прикладу, ви мали б:
- β^contr.sum0=x¯
- β^contr.sumWhite=x¯White−x¯
- β^contr.sumBlack=x¯Black−x¯
- β^contr.sumAsian=x¯Asian−x¯
- β^contr.sumMale=x¯Male−x¯
- β^contr.sumFemale=x¯Female−x¯
Ви помітите, що оскільки білі та чоловічі більше не є еталонними рівнями, їх вже не дорівнює 0. Факт, що це 0, є специфічним для контрастного лікування.β^contr.sum