Напевно, дуже базове питання про багатофакторну ANOVA. Припустимо двосторонню конструкцію, де ми перевіряємо як основні ефекти A, B, так і взаємодію A: B. Під час тестування основного ефекту для A з SS типу I ефект SS обчислюється як різниця , де - сума залишкової помилки квадратів для модель з просто перехопленням і RSS для моделі з фактором A додано. Моє запитання стосується вибору терміна помилки:
Як ви обґрунтовуєте, що термін помилки для цього тесту, як правило, обчислюється з RSS повної моделі A + B + A: B, що включає як основні ефекти, так і взаємодію?
... на відміну від прийняття терміна помилки з необмеженої моделі з фактичного порівняння (RSS від лише основного ефекту A у наведеному вище випадку):
Це має значення, оскільки термін помилки від повної моделі, ймовірно, часто (не завжди) менший, ніж термін помилки з необмеженої моделі в порівнянні. Здається, що вибір терміна помилки дещо довільний, створюючи місце для бажаних змін p-значення лише додаванням / видаленням факторів, які насправді не цікавлять, але все-таки змінюють термін помилки.
У наступному прикладі значення F для A значно змінюється залежно від вибору для повної моделі, хоча фактичне порівняння для ефекту SS залишається однаковим.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
Це ж питання стосується і типу II СС, і взагалі до загальної лінійної гіпотези, тобто порівняння моделі між обмеженою та необмеженою моделлю в межах повної моделі. (Для типу III SS необмежена модель завжди є повною моделлю, тому питання там не виникає)
IV1
(1-й приклад), то два вирази для знаменника однакові. Однак, коли повна модель містить додаткові ефекти, знаменник для тестування змінюється, навіть якщо порівняння моделі ( проти для типу 1 SS) не має. У 3-х прикладах середній квадрат для не змінюється (однакове порівняння моделі у всіх випадках), але середня квадратична помилка робить. Мене цікавить, що виправдовує зміну терміну помилки, коли фактичне порівняння залишається таким же. A~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))