Чому ANOVA викладають / використовують так, ніби це інша методологія дослідження порівняно з лінійною регресією?


91

ANOVA еквівалентна лінійній регресії з використанням відповідних фіктивних змінних. Висновки залишаються тими ж незалежно від того, використовуєте ви ANOVA чи лінійну регресію.

Чи зважаючи на їх еквівалентність, чи є якась причина, чому ANOVA використовується замість лінійної регресії?

Примітка: Мені особливо цікаво почути технічні причини використання ANOVA замість лінійної регресії.

Редагувати

Ось один приклад використання однобічної ANOVA. Припустимо, ви хочете знати, чи середній зріст самця та самки однаковий. Для перевірки вашої гіпотези ви збираєте дані з випадкової вибірки чоловічої та жіночої статі (скажімо, по 30 кожна) та виконуєте аналіз ANOVA (тобто суму квадратів за статтю та помилкою), щоб вирішити, чи існує ефект.

Ви також можете використовувати лінійну регресію для перевірки на це наступним чином:

Визначте: якщо респондентом є чоловік, а іншому випадку. де:Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

Тоді тест на те, чи є , еквівалентним тестом для вашої гіпотези.β=0


2
Якщо я не помиляюся, лінійна регресія - це оцінка коефіцієнтів, які визначають хорошу лінійну карту від X до Y. ANOVA - це тест, щоб знати, чи є значні відмінності в X, коли Y приймають два різних значення. Чи можете ви пояснити нам, чому ви вважаєте, що вони однакові?
Робін Жирард

28
ANOVA можна розглядати як "синтаксичний цукор" для спеціальної підгрупи лінійних регресійних моделей. ANOVA регулярно використовується дослідниками, які не є статистиками за навчанням. Зараз вони "інституціоналізовані", і важко їх повернути до використання більш загального представництва ;-)
suncoolsu

3
Оголосив ваш коментар, але експерименталісти навіть божевільніші, ніж я думав, якщо для них це синтаксичний цукор! Яка версія є більш інтуїтивно зрозумілою .... Тест гіпотези ANOVA щодо : чи достатньо високим є співвідношення поясненої дисперсії до незрозумілої дисперсії? Т-тест на термін регресійної моделі: чи ефект достатньо відрізняється від нуля? І з останньою формулюванням ви також отримуєте напрямок змін. І якщо вам довелося перетворити дані, ви можете перетворити оцінку параметрів у фізично значущу величину. На відміну від СС. βββ
f1r3br4nd

Відповіді:


55

Як економіст, аналіз дисперсії (ANOVA) викладається і, як правило, розуміється стосовно лінійної регресії (наприклад, в курсі Артура Голдбергера " Курс економетрії" ). Економісти / економетрики, як правило, розглядають ANOVA як нецікаву і вважають за краще переходити прямо до регресійних моделей. З точки зору лінійних (або навіть узагальнених лінійних) моделей ANOVA розподіляє коефіцієнти в партії, причому кожна партія відповідає "джерелу зміни" в термінології ANOVA.

Як правило, ви можете копіювати умовиводи, отримані від ANOVA, використовуючи регресію, але не завжди регресію OLS. Багаторівневі моделі потрібні для аналізу ієрархічних структур даних, таких як "розбиті графіки", де ефекти між групами порівнюються з помилками на рівні групи, а ефекти в межах групи порівнюються з помилками на рівні даних. У роботі Гельмана [1] детально описується ця проблема і ефективно стверджується, що ANOVA є важливим статистичним інструментом, якому слід все-таки навчатись заради себе.

Зокрема Гельман стверджує, що ANOVA - це спосіб розуміння та структурування багаторівневих моделей. Тому ANOVA не є альтернативою регресії, а є інструментом для узагальнення складних великомірних висновків та аналізу дослідницьких даних.

Гельман - шановний статистик, і йому слід надати деяку довіру. Однак майже вся емпірична робота, яку я роблю, однаково добре послужила б лінійною регресією, і тому я твердо потрапляю до табору, коли я розглядаю її як трохи безглузду. Деякі дисципліни зі складними навчальними проектами (наприклад, психологія) можуть вважати ANOVA корисним.

[1] Гельман, А. (2005). Аналіз дисперсії: чому це важливіше, ніж будь-коли (з обговоренням). Літописи статистики 33, 1–53. doi: 10.1214 / 009053604000001048


1
Дякую за довідку Gelman Я прочитаю його папір. Але хіба ми не можемо проаналізувати багаторівневі моделі, використовуючи класичну максимальну ймовірність? Я погоджуюся, що OLS є неефективним / невідповідним для багаторівневих моделей.

3
@Srikant - існує багато способів боротьби з багаторівневими даними, і Гельман є "королем" цього поля. Його суть полягає в тому, що ANOVA - це простий / зрозумілий метод фіксації ключових особливостей складних та ієрархічних структур даних або вивчення конструкцій, а ANOVA - простий / зрозумілий спосіб представлення ключових результатів. У цьому сенсі його роль є взаємодоповнюючою чи дослідницькою.
Грехем Куксон

1
+1 за гарну чітку відповідь. Абзац 3 - це, по суті, те, що я викладав як студент біології, з акцентом на простоті поєднання безперервних і категоричних незалежних змінних в рамках ANOVA.
Freya Harrison

23

Я думаю, що другий абзац Ґрема лежить в основі цього питання. Я підозрюю, що це не стільки технічне, скільки історичне, можливо, пов'язане з впливом " Статистичних методів для науково-дослідних працівників ", а також простотою викладання / застосування інструменту для нестатистів в експериментальному аналізі з використанням дискретних факторів, а не заглибленням у побудову моделі та пов'язані з ними інструменти. У статистиці ANOVA зазвичай викладається як особливий випадок регресії. (Я думаю, це схоже на те, чому біостатистика наповнюється безліччю однойменних "тестів", а не наголошує на побудові моделі.)


14

Я б сказав, що деякі з вас використовують термін регресія, коли слід використовувати загальну лінійну модель. Я думаю, що регресія є гліном, що включає безперервні коваріати. Коли суцільні коріаріати поєднуються з фіктивними змінними, які слід назвати аналізом коваріації. Якщо використовуються лише фіктивні змінні, ми називаємо цю особливу форму glm як аналіз дисперсії. Я думаю, що аналіз дисперсії має виразне друге значення, як процедура випробування значущих коефіцієнтів в glm з використанням декомпозиції дисперсії на компоненти моделі терміна та компонент помилки.


2
(+1) Я також одразу зазначив неоднозначну термінологічну "регресію" протягом усієї дискусії.
Стефан Лоран

1
(+1) GLM може бути найкращим способом розчленувати різні значення. Слід також зазначити, що в історії ANOVA використовувались процедури обчислення, які затушовують відношення між OLS та ANOVA. Тому номенклатура може бути виправдана історичними причинами.
jank

10

ANOVA можна використовувати з категоричними пояснювальними змінними (факторами), які приймають більше двох значень (рівнів), і дає основний тест, що середня відповідь однакова для кожного значення. Це дозволяє уникнути проблеми регресії при проведенні декількох парних t-тестів між цими рівнями:

  • Багаторазові тести з фіксованим рівнем значущості 5%, приблизно 5% з них дадуть неправильні результати.
  • Ці тести не залежать одне від одного. Порівнювання рівнів А з B пов'язане з порівнянням A з C, оскільки дані A використовуються в обох тестах.

Краще використовувати контрасти для різних комбінацій на факторних рівнях, які ви хочете перевірити.


1
Ви можете уточнити цю відповідь; як написано, я бачу 3 випуски. Перші 2 є трохи прискіпливими, але їх все-таки слід редагувати, третій - змістовний у контексті цієї дискусії. (1) ANOVA можна використовувати лише з двома групами (хоча тоді більшість людей просто проводять t-тест). (2) декілька t-тестів w / будуть асимптотично виводити помилки типу I для 5% тих контрастів, де немає фактичної різниці ; скільки помилок відбудеться, залежить від кількості нулів. α=.05
gung

7
(3) Ваша відповідь передбачає, що проблема множинних порівнянь застосовується до регресії OLS, чого вона не відбувається, якщо вона проведена належним чином. Правильний спосіб тестування фактора в контексті регресії - це тестування вкладеної моделі з усіма факторними манекенами, скинутими проти повної моделі з включеними усіма факторними манекенами. Цей тест ідентичний тому, який проводить ANOVA. Це правда, що ви не повинні використовувати тести окремих змінних манекенів (я підозрюю, що ви намагаєтесь описати тут).
gung

3

ANOVA ви перевіряєте, чи є значна різниця між сукупністю, якщо ви припускаєте, що ви порівнюєте більше двох засобів популяції, то ви збираєтеся використовувати тест F.

При регресійному аналізі ви будуєте модель між незалежними змінними та залежною змінною. Якщо у вас є одна незалежна змінна з чотирма рівнями, ви можете використовувати три манекенні змінні та запустити регресійну модель. Тест F для регресійної моделі, який використовується для перевірки значущості регресійної моделі, такий самий, як F, який ви отримуєте при тестуванні на різницю серед сукупності засобів. Якщо ви запустили покрокову регресію, то деякі з змінних змінних можуть бути скинуті з моделі, і ваше F-значення буде відрізнятися від того, коли ви виконуєте тест ANOVA.


5
Це робить ANOVA процедурою тестування, а регресія - процедурою моделювання, в якій можна проводити тести. Але ANOVA також має основоположну модель, незалежно від того, підкреслюється це у всіх вступних методах лікування. Отже, ця відповідь не охоплює різниці між ними. Він також не звертається до цього питання, через що їх навчають як різні, незалежно від сильної подібності.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.