У матричному плані ваші моделі знаходяться у звичайній формі . Е[ Y] = Xβ
Перша модель являє собою елемент першої групи рядком у , що відповідає перехопленню, індикатору для категорії 2 та індикатору для категорії 3. Він являє собою елемент другої групи за рядок та елемент третьої групи на .X ( 1 , 1 , 0 ) ( 1 , 0 , 1 )( 1 , 0 , 0 )Х( 1 , 1 , 0 )( 1 , 0 , 1 )
Друга модель замість цього використовує рядки , та відповідно.( 1 , 2 , 2 2 ) = ( 1 , 2 , 4 ) ( 1 , 3 , 3 2 ) = ( 1 , 3 , 9 )( 1 , 1 , 12) = ( 1 , 1 , 1 )( 1 , 2 , 22) = ( 1 , 2 , 4 )( 1 , 3 , 32) = ( 1 , 3 , 9 )
Назвемо отримані матриці моделі і . Вони просто пов'язані між собою: стовпці одного - це лінійні комбінації стовпців іншого. Наприклад, нехайX 2Х1Х2
V= ⎛⎝⎜100112138⎞⎠⎟.
Тоді з тих пір
⎛⎝⎜111010001⎞⎠⎟V= ⎛⎝⎜111123149⎞⎠⎟,
випливає, що
Х1V= X2.
Тому самі моделі пов'язані між собою
Х1β1= Е[ Y] = X2β2= ( X1V) β2= X1( Vβ2) .
Тобто коефіцієнти для другої моделі повинні бути пов'язані з коефіцієнтами першої черезβ2
β1= Vβ2.
Тому однакове співвідношення стосується їх найменших оцінок квадратів. Це показує, що моделі мають однакові підходи : вони просто виражають їх по-різному.
Оскільки перші стовпці двох матриць моделей однакові, будь-яка таблиця ANOVA, яка розкладає дисперсію між першим стовпцем та рештою стовпців, не зміниться. Таблиця ANOVA, яка розрізняє другий та третій стовпці, залежатиме від того, як кодуються дані.
Геометрично (і дещо абстрактніше) тривимірний підпростір породжений стовпцями збігається з підпростором, породженим стовпцями . Тому моделі матимуть однакові підходи. Пристосування виражаються по-різному лише тому, що пробіли описуються двома різними основами. X 1 X 2R15Х1Х2
Для ілюстрації тут наводяться такі дані, як ваші (але з різними відповідями) та відповідні аналізи, як генеровано в R
.
set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))
Підійдіть дві моделі:
fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)
Показати їх таблиці ANOVA:
anova(fit.1)
anova(fit.2)
Вихід для першої моделі є
Df Sum Sq Mean Sq F value Pr(>F)
factor(group) 2 51.836 25.918 14.471 0.000634 ***
Residuals 12 21.492 1.791
Для другої моделі вона є
Df Sum Sq Mean Sq F value Pr(>F)
group 1 50.816 50.816 28.3726 0.0001803 ***
I(group^2) 1 1.020 1.020 0.5694 0.4650488
Residuals 12 21.492 1.791
Видно, що залишкові суми квадратів однакові. Додавши перші два ряди у другу модель, ви отримаєте однаковий коефіцієнт DF та суму квадратів, з яких можна обчислити однаковий середній квадрат, значення F та p-значення.
Нарешті, порівняємо оцінки коефіцієнтів.
beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)
Вихід є
(Intercept) factor(group)2 factor(group)3
0.4508762 2.8073697 4.5084944
(Intercept) group I(group^2)
-3.4627385 4.4667371 -0.5531225
Навіть перехоплення абсолютно різні. Це тому, що оцінки будь-якої змінної в множинній регресії залежать від оцінок всіх інших змінних (якщо тільки вони не є взаємно ортогональними, що не стосується жодної моделі). Однак подивіться, що досягає множення на :V
⎛⎝⎜100112138⎞⎠⎟⎛⎝⎜- 3,46273854.4667371- 0,5531225⎞⎠⎟= ⎛⎝⎜0,45087622.80736974.5084944⎞⎠⎟.
Підходи дійсно такі ж, як і заявлені.