Чому ці таблиці регресії anova однакові?


11

У мене є дві регресії одного і того ж Y і трирівневого X. Загалом n = 15, з n = 5 у кожній групі або рівня X. Перша регресія трактує X як категоричну, присвоюючи змінні показники рівням 2 і 3 з рівнем один з них є еталонним. Показники / манекени такі: X1 = 1, якщо рівень = 2, 0, якщо ще X2 = 1, якщо рівень = 3, 0, якщо ще

В результаті моя пристосована модель виглядає приблизно так: y = b0 + b1 (x1) + b2 (x2)

Я запускаю регресію, і результат включає цю таблицю аналізу варіацій:

стіл

Решта результатів тут не має значення.

Гаразд, тепер я веду різну регресію за тими ж даними. Я скидаю категоричний аналіз і вважаю X безперервним, але додаю змінну до рівняння: X ^ 2, квадрат X. Отже, тепер у мене є така модель: y = b0 + b1 (X) + b2 (X) ^ 2

Якщо я запускаю його, він виписує таку саму точну таблицю аналізу варіації, яку я вам показав вище. Чому ці дві регресії породжують однакові таблиці?

[Заслуга цієї маленької головоломки належить Томасу Беліну в кафедрі біостатистики Каліфорнійського університету в Лос-Анджелесі.]


Я думаю, вам доведеться показати нам код, який "робить регресію" і, можливо, крок даних (схожий на вихід SAS для мене), який ви використовуєте для створення вкладки даних, на якій ви працюєте.
Бред С.

1
@Brad Я не думаю, що це потрібно: ситуація чітко описана і більше інформації не потрібно, щоб пояснити, що відбувається.
whuber

@whuber Можливо. Я думаю, якщо ви так говорите, але мені це здається помилкою програмування. Я з нетерпінням чекаю вашої відповіді.
Бред С.

1
@Brad Не помилка програмування: я розмістив свої пояснення. Це хороше питання, з справжнім статистичним інтересом (і застосовністю).
whuber

Гей Бред, це насправді з набору проблем - ситуація була надана мені приблизно так само, як я дав її вам, хлопці, і запитання якось ставилося так само: "чому вони будуть однакові?". Це я просто викладаю: дві моделі, однакові таблиці ANOVA, решта результатів навіть не даються (я мав би це зрозуміти замість того, щоб говорити "не має значення").
logjammin

Відповіді:


22

У матричному плані ваші моделі знаходяться у звичайній формі . E[Y]=Xβ

Перша модель являє собою елемент першої групи рядком у , що відповідає перехопленню, індикатору для категорії 2 та індикатору для категорії 3. Він являє собою елемент другої групи за рядок та елемент третьої групи на .X ( 1 , 1 , 0 ) ( 1 , 0 , 1 )(1,0,0)X(1,1,0)(1,0,1)

Друга модель замість цього використовує рядки , та відповідно.( 1 , 2 , 2 2 ) = ( 1 , 2 , 4 ) ( 1 , 3 , 3 2 ) = ( 1 , 3 , 9 )(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

Назвемо отримані матриці моделі і . Вони просто пов'язані між собою: стовпці одного - це лінійні комбінації стовпців іншого. Наприклад, нехайX 2Х1Х2

V=(111013028).

Тоді з тих пір

(100110101)V=(111124139),

випливає, що

Х1V=Х2.

Тому самі моделі пов'язані між собою

Х1β1=Е[Y]=Х2β2=(Х1V)β2=Х1(Vβ2).

Тобто коефіцієнти для другої моделі повинні бути пов'язані з коефіцієнтами першої черезβ2

β1=Vβ2.

Тому однакове співвідношення стосується їх найменших оцінок квадратів. Це показує, що моделі мають однакові підходи : вони просто виражають їх по-різному.

Оскільки перші стовпці двох матриць моделей однакові, будь-яка таблиця ANOVA, яка розкладає дисперсію між першим стовпцем та рештою стовпців, не зміниться. Таблиця ANOVA, яка розрізняє другий та третій стовпці, залежатиме від того, як кодуються дані.

Геометрично (і дещо абстрактніше) тривимірний підпростір породжений стовпцями збігається з підпростором, породженим стовпцями . Тому моделі матимуть однакові підходи. Пристосування виражаються по-різному лише тому, що пробіли описуються двома різними основами. X 1 X 2R15Х1Х2


Для ілюстрації тут наводяться такі дані, як ваші (але з різними відповідями) та відповідні аналізи, як генеровано в R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Підійдіть дві моделі:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Показати їх таблиці ANOVA:

anova(fit.1)
anova(fit.2)

Вихід для першої моделі є

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Для другої моделі вона є

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Видно, що залишкові суми квадратів однакові. Додавши перші два ряди у другу модель, ви отримаєте однаковий коефіцієнт DF та суму квадратів, з яких можна обчислити однаковий середній квадрат, значення F та p-значення.

Нарешті, порівняємо оцінки коефіцієнтів.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

Вихід є

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

Навіть перехоплення абсолютно різні. Це тому, що оцінки будь-якої змінної в множинній регресії залежать від оцінок всіх інших змінних (якщо тільки вони не є взаємно ортогональними, що не стосується жодної моделі). Однак подивіться, що досягає множення на :V

(111013028)(-3,46273854.4667371-0,5531225)=(0,45087622.80736974.5084944).

Підходи дійсно такі ж, як і заявлені.


6
Святий курить, людино. Я ніколи не отримував більш розглянутих, ґрунтовних відповідей із запитання в Інтернеті. Дякую x1000, серйозно.
logjammin

Ласкаво просимо на наш сайт! Сподіваюся, ви продовжуєте використовувати його і з нетерпінням чекаю ваших внесків.
whuber

1
Я щось сьогодні дізнався! (підтримується)
Бред С.

Дивовижна відповідь. Розум роздутий!
кедрпс

5

Якщо коротко, обидві моделі насичені тим сенсом, що вони дають унікальні емпіричні прогнози відповіді на всіх 3 рівнях X. Це може бути очевидним для кодування факторної змінної в моделі 1. Для квадратичної тенденції цікаво зазначити, що a квадратична формула може інтерполювати будь-які 3 бали. Хоча контрасти різні, в обох моделях глобальний тест проти нульової моделі перехоплення лише дає однакові умовиводи.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.