ANOVA проти множинної лінійної регресії? Чому ANOVA так часто використовується в експериментальних дослідженнях?


24

ANOVA проти множинної лінійної регресії?

Я розумію, що обидва ці методи, здається, використовують однакову статистичну модель. Однак за яких обставин слід використовувати який метод?

Які переваги та недоліки цих методів у порівнянні?

Чому ANOVA так часто використовується в експериментальних дослідженнях, і я навряд чи знайду регресійне дослідження?


5
Оскільки обидва використовують одну і ту ж модель, не має значення, яку ви використовуєте.
Пітер Флом - Відновіть Моніку

3
Я називаю це регресією, коли я порівнюю нахили, тобто неперервні змінні предиктора, і ANOVA, коли я порівнюю середні засоби, тобто категоричні змінні предиктора. Причина, яку ви виявляєте ANOVA більше в експериментальних дослідженнях, полягає в тому, що вони в основному порівнюють засоби або рівні обробки, наприклад, порівнюючи різні добрива на ріст рослин. Але, як @PeterFlom вже говорив, обидва використовують одну і ту ж модель, і не має значення, яку з них ви використовуєте - єдине, що виглядає по-різному - це вихід, який вони дають вам, - і залежно від вашого питання ви хочете вивести "регресійний" вихід або Вихід "ANOVA".
Стефан

2
Хм, але ви могли також включити категоричні прогнози в регресію через фіктивне кодування?
флоріан

Так, звісно!
Стефан

4
Ваше запитання є дуже актуальним, і воно неодноразово зверталось з різних точок зору на резюме. Дублікат цих тестів викликає спантеличення. Неважко сказати, що ANOVA = лінійна регресія, і я думаю, що всі зроблені до цього часу коментарі корисні і суттєві, але реальність є дещо більш нюансованою і складною для розуміння, особливо якщо включити ANCOVA під парасолькою аналізу дисперсія. Перевірте інші записи, наприклад, цей . Я поставив +1 вашому запитанню, хоча це, строго кажучи, дублікат. Ви можете дати екс.?
Антоні Пареллада

Відповіді:


22

Було б цікаво врахувати, що розбіжність полягає у типі змінних , а більш чітко - у типах пояснювальних змінних . У типовій ANOVA у нас є категоріальна змінна з різними групами , і ми намагаємося визначити, чи відрізняється вимірювання суцільної змінної між групами. З іншого боку, OLS, як правило, сприймається як перш за все спроба оцінки зв’язку між постійною регресою і змінною відповіді та однією або декількома регресорами чи пояснювальними змінними . У цьому сенсі регресію можна розглядати як іншу техніку, піддаючись передбаченню значень на основі лінії регресії.

Однак ця різниця не витримує поширення ANOVA на решту аналізу супу дисперсійного алфавіту (ANCOVA, MANOVA, MANCOVA); або включення фіксованих змінних змінних в регресію OLS. Мені незрозуміло щодо конкретних історичних орієнтирів, але так, ніби обидві методи виробили паралельні адаптації для вирішення все складніших моделей.

Наприклад, ми можемо побачити, що відмінності між ANCOVA та OLS з фіктивними (або категоричними) змінними (в обох випадках із взаємодією) є максимум косметичними. Вибачте, будь ласка, мій відхід від меж у заголовку вашого питання щодо множинної лінійної регресії.

В обох випадках, модель, по суті , збігається з точкою R , що в функція використовується для виконання ANCOVA . Однак він може бути представлений як різний щодо включення в регресійну модель перехоплення, що відповідає першому рівню (або групі) факторної (або категоричної) змінної.lm

У збалансованій моделі (однакові за розміром групи, n 1 , 2 , i ) та лише з одним коваріатом (для спрощення подання матриці) матричну модель в ANCOVA можна зустріти як деяку варіацію:н1,2,i

Х=[1н100хн10001н200хн20001н300хн3]

для груп факторної змінної, вираженої у вигляді блокових матриць.3

Це відповідає лінійній моделі:

з α i, що еквівалентно різній групі, означає в моделі ANOVA, тоді як різні β '- це нахили коваріату для кожної з груп.

у=αi+β1хн1+β2хн2+β3хн3+ϵi
αiβ

Представлення тієї ж моделі в області регресії, а конкретно в R, розглядає загальний перехоплення, що відповідає одній із груп, і матриця моделі може бути представлена ​​як:

Х=[00000J3н,11н20х0хн2001н300хн3]

рівняння OLS:

у=β0+мкi+β1хн1+β2хн2+β3хн3+ϵi

β0мкi

Як видно з модельних матриць, презентація відповідає фактичній тотожності між регресією та аналізом дисперсії.

Мені подобається на увазі перевірити це з допомогою деяких рядків коду і моїх улюблених наборів даних mtcarsв R . Я використовую lmдля ANCOVA згідно з документами Бена Болкера, доступними тут .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

Що стосується частини питання про те, яким методом користуватися (регресія з R!), Ви можете побачити цей он-лайн коментар, який я натрапив під час написання цього повідомлення.


1
Дякую за цей надзвичайно корисний коментар ... Цитуючи коментар, який ви зв'язали: "Використовуйте регресію, коли ви не впевнені, чи мають незалежні категоричні змінні взагалі якийсь вплив. Використовуйте ANOVA, коли хочете дізнатися, чи мають окремі категорії різні ефекти. . " То як же тоді багато експериментальних досліджень використовують ANOVA? З мого розуміння, регресія була б правильним вибором. Чи дослідники занадто впевнені, що наслідки існують і лише пошуковий спосіб, щоб статистично "довести" їх?
флоріан

Чи можете ви надати практичний приклад, коли слід використовувати aov над регресією та пояснити чому? Дякую за ваш час. Я також психолог, навчаючись і не бачу переваг Anova, за винятком того, що, мабуть, публікується простіше.
Флоріан

Будь-яка удача? Мені буде дуже цікаво будь-яка конкретна евристика на користь будь-якого типу процедури, тому, будь ласка, поділіться, якщо ви знайдете відповідь.
Антоні Парелада

На жаль, жодні нові відкриття на моєму шляху до статистики поки що ... не будуть тримати вас у курсі, більше інформації оцінюється.
флоріан

У мене виникають труднощі з розумінням матриці моделі OLS та відповідного рівняння. Я не розумію, звідки береться нульовий стовпець (5-й стовпчик матриці). Крім того, я думаю, що рівняння повинно відповідати стовпцям (тобто mu_i має бути лише для двох груп, а x-змінна повинна бути включена без взаємодії з груповим манекеном). Додаткове роз’яснення дуже цінується!
Нік

4

Регресія ANOVA та OLS є математично ідентичною у випадках, коли ваші прогнози є категоричними (з точки зору висновків, які ви виводите із тестової статистики). Інакше кажучи, ANOVA - це особливий випадок регресу. ANOVA не може сказати вам, що регресія не може вийти сама. Однак навпаки не вірно. ANOVA не можна використовувати для аналізу з постійними змінними. Таким чином, ANOVA можна було б класифікувати як більш обмежену техніку. Однак регресія не завжди є зручною для менш досконалого аналітика. Наприклад, більшість сценаріїв ANOVA автоматично генерують умови взаємодії, де, як і у випадку регресії, вам часто потрібно самостійно обчислити ці терміни за допомогою програмного забезпечення. Широке використання ANOVA частково є пережитком статистичного аналізу перед використанням більш потужного статистичного програмного забезпечення, і, на мою думку, простіший метод навчання недосвідченим студентам, мета яких - відносне розуміння поверхневого рівня, що дозволить їм аналізувати дані за допомогою базового статистичного пакету. Спробуйте це коли-небудь ... Вивчіть t-статистику, яка базує регресію, викреслює її, а потім порівняйте її із співвідношенням F з ANOVA за тими ж даними. Ідентичний!


Це не правда.
Майкл Р. Черник

4
@MichaelChernick Не могли б ви детальніше пояснити, яке з багатьох тверджень, висловлених у цій відповіді, ви вважаєте неправдивими? Хоча вона займає деякі крайні позиції, важко знайти якісь помилкові.
whuber

Я заперечував проти твердження, що регресія ANOVA та OLS математично однакові. Я усвідомлюю, що ANOVA можна розглядати як регресію в формі загальної лінійної моделі, яка може бути сформульована як регресія.
Майкл Р. Черник

У випадку з OLS, як вони не є ідентичними, крім результатів? Основна модель однакова, залишки однакові, р-значення, які вони виробляють, однакові. Саме вихід відрізняється.
dbwilson

2

На мою думку, головна перевага регресії від ANOVA в цих напрямках полягає у висновку. Якщо вас цікавить статистична значимість категоріальної змінної (коефіцієнта) як блоку, то ANOVA надає цей тест для вас. З регресією категорична змінна представлена ​​двома або більше фіктивними змінними, залежно від кількості категорій, і, отже, у вас є 2 або більше статистичних тестів, кожен з яких порівнює середнє значення для певної категорії з середнім значенням нульової категорії (або загальне середнє значення, залежно від методу фіктивного кодування). Жодне з них не може становити інтерес. Таким чином, ви повинні провести аналіз після оцінки (по суті, ANOVA), щоб отримати загальний тест фактору, який вас цікавить.


Власне, це неправда. Якщо ви виконуєте тест на коефіцієнт ймовірності, ви протестуєте весь категоріальний коефіцієнт як блок в регресійній моделі.
Dan Chaltiel

Ваш коментар не суперечить тому, що я сказав. Тест на коефіцієнт ймовірності, який ви згадуєте, був би післяоціночним аналізом фактора, порівнюючи модель з коефіцієнтом із моделлю без.
dbwilson

Якщо ви виконаєте ANOVA, ви отримаєте оцінку для "категоріальної змінної (фактора) як блоку", як і регресія з LRT. Регресія може забезпечити вам кілька бета-версій, але не проводить більше тестів, ніж ANOVA, тому ваше твердження "отже, у вас є 2 або більше статистичних тестів" мені здається неправильним. Чому LRT буде більш "післяоцінювальним", ніж ANOVA?
Dan Chaltiel

1

Основна перевага лінійної регресії полягає в тому, що вона є стійкою до порушення однорідності дисперсії, коли розміри вибірки для груп неоднакові. Інша полягає в тому, що це полегшує включення декількох коваріатів (хоча це також можна легко здійснити за допомогою ANCOVA, коли вам цікаво включити лише один коваріат). Регресія набула широкого розповсюдження протягом сімдесятих років, коли з'явилися успіхи в обчислювальній потужності. Ви також можете вважати регресію більш зручною, якщо вам особливо цікаво вивчити відмінності між окремими рівнями категоріальної змінної, коли є більше двох рівнів (до тих пір, поки ви встановите фіксовану змінну в регресії так, що один з цих двох рівнів представляє референтну групу).


1
Як було зазначено в іншій відповіді, ANOVA - це множинна регресія.
gung - Відновіть Моніку

Дякую, тож у чому переваги Anova? Чому б ви використовували Anova / Ancova для регресійної моделі?
Флоріан

У мене тут питання. Чому ви пояснили корисність ANCOVA "лише один коваріат"? Це тому, що ви можете включити лише один коваріат до ANCOVA?
Кевін Кан
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.