Було б цікаво врахувати, що розбіжність полягає у типі змінних , а більш чітко - у типах пояснювальних змінних . У типовій ANOVA у нас є категоріальна змінна з різними групами , і ми намагаємося визначити, чи відрізняється вимірювання суцільної змінної між групами. З іншого боку, OLS, як правило, сприймається як перш за все спроба оцінки зв’язку між постійною регресою і змінною відповіді та однією або декількома регресорами чи пояснювальними змінними . У цьому сенсі регресію можна розглядати як іншу техніку, піддаючись передбаченню значень на основі лінії регресії.
Однак ця різниця не витримує поширення ANOVA на решту аналізу супу дисперсійного алфавіту (ANCOVA, MANOVA, MANCOVA); або включення фіксованих змінних змінних в регресію OLS. Мені незрозуміло щодо конкретних історичних орієнтирів, але так, ніби обидві методи виробили паралельні адаптації для вирішення все складніших моделей.
Наприклад, ми можемо побачити, що відмінності між ANCOVA та OLS з фіктивними (або категоричними) змінними (в обох випадках із взаємодією) є максимум косметичними. Вибачте, будь ласка, мій відхід від меж у заголовку вашого питання щодо множинної лінійної регресії.
В обох випадках, модель, по суті , збігається з точкою R , що в функція використовується для виконання ANCOVA . Однак він може бути представлений як різний щодо включення в регресійну модель перехоплення, що відповідає першому рівню (або групі) факторної (або категоричної) змінної.lm
У збалансованій моделі (однакові за розміром групи, n 1 , 2 , ⋯i ) та лише з одним коваріатом (для спрощення подання матриці) матричну модель в ANCOVA можна зустріти як деяку варіацію:н1 , 2 , ⋯i
Х= ⎡⎣⎢1н10001н20001н3хн1000хн2000хн3⎤⎦⎥
для груп факторної змінної, вираженої у вигляді блокових матриць.3
Це відповідає лінійній моделі:
з α i, що еквівалентно різній групі, означає в моделі ANOVA, тоді як різні β '- це нахили коваріату для кожної з груп.
у= αi+ β1хн1+ β2хн2+ β3хн3+ ϵi
αiβ
Представлення тієї ж моделі в області регресії, а конкретно в R, розглядає загальний перехоплення, що відповідає одній із груп, і матриця моделі може бути представлена як:
Х= ⎡⎣⎢⎢⎢⋮J3 п , 1⋮01н20001н3⋮х⋮0000хн2000хн3⎤⎦⎥⎥⎥
рівняння OLS:
у= β0+ мкi+ β1хн1+ β2хн2+ β3хн3+ ϵi
β0мкi
Як видно з модельних матриць, презентація відповідає фактичній тотожності між регресією та аналізом дисперсії.
Мені подобається на увазі перевірити це з допомогою деяких рядків коду і моїх улюблених наборів даних mtcars
в R . Я використовую lm
для ANCOVA згідно з документами Бена Болкера, доступними тут .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
Що стосується частини питання про те, яким методом користуватися (регресія з R!), Ви можете побачити цей он-лайн коментар, який я натрапив під час написання цього повідомлення.