Порядок змінних в ANOVA має значення, чи не так?


20

Чи правильно я розумію, що порядок, у якому змінні вказані в багатофакторному ANOVA, має значення, але порядок не має значення при виконанні множинної лінійної регресії?

Тож припускаючи такий результат, як вимірювана втрата крові y та дві категоричні змінні

  1. метод аденоїдектомії a ,
  2. метод тонзилектомії b .

Модель y~a+bвідрізняється від моделі y~b+a(приблизно так, моє реалізація в R, схоже, вказує).

Чи правильно я розумію, що термін тут полягає в тому, що ANOVA є ієрархічною моделлю, оскільки вона спочатку приписує стільки варіацій, скільки може, першому фактору, перш ніж намагатися віднести залишкову дисперсію до другого чинника?

У наведеному вище прикладі ієрархія має сенс, тому що я завжди роблю аденоїдектомію спочатку перед тим, як робити тонзилектомію, але що буде, якби у кожної людини було дві змінні без притаманного порядку?


12
Замовляйте питання в ANOVA з незбалансованим дизайном, тобто, коли є неоднакові розміри комірок. Ця тема часто трактується під заголовком "типи сум квадратів". Дивіться epm.sagepub.com/content/38/3/621.full.pdf+html та відповідь chl
каракал


Я щойно розширив старішу дискусію, сподіваючись, що вона прожене інше світло. Це, безумовно, ще потребує роботи, і, можливо, хтось має нерви, щоб допомогти її редагувати. Ось що я поки що маю: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Можливо, тут є щось цікаве з потенціалом, який можна отримати на явний відповідь на це питання тут.
Готфрід Гельмс

Відповіді:


17

Це питання, очевидно, випливало з дослідження з неврівноваженою двосторонньою конструкцією, проаналізованого в R з aov()функцією; на цій сторінці подано більш пізній та детальний приклад цього питання.

Загальна відповідь на це питання, як і для багатьох, така: "Це залежить". Тут залежить від того, чи буде дизайн збалансованим і якщо ні, то який аромат ANOVA обраний.

По-перше, це залежить від того, чи збалансований дизайн. У кращому з усіх можливих світів при однаковій кількості випадків у всіх осередках факторної конструкції не було б різниці через порядок введення факторів у модель, незалежно від того, як виконується ANOVA. * Наведені випадки , очевидно, з ретроспективної клінічної когорти, схоже, з реального світу, де такого балансу не було знайдено. Тож порядок може мати значення.

По-друге, це залежить від того, як виконується ANOVA, що є дещо спірним питанням. Типи ANOVA для незбалансованих конструкцій відрізняються за порядком оцінки основних ефектів та взаємодій. Оцінка взаємодій є основою для двостороннього та вищого порядку ANOVA, тому існують суперечки щодо найкращого способу. Дивіться цю перехресну перевірену сторінку для одного пояснення та обговорення. Дивіться подробиці та попередження про функцію Anova()(з великою літери "А") в посібнику для carпакета для іншого перегляду.

Порядок факторів має значення в незбалансованих конструкціях за замовчуванням aov()у R, які використовують те, що називається тестами типу I. Це послідовне віднесення відхилень від факторів у порядку вступу до моделі, як передбачалося в цьому питанні. Порядок не має значення для тестів типу II або III типу, передбачених Anova()функцією в carпакеті в Р. Ці альтернативи, однак, мають свої потенційні недоліки, зазначені у вищезазначених посиланнях.

Нарешті, розглянемо відношення до множинної лінійної регресії, як lm()у R, що є, по суті, тим же типом моделі, якщо включити умови взаємодії. Порядок введення змінних у lm()значення не має значення з точки зору коефіцієнтів регресії та p- значень, про які повідомляється summary(lm()), в яких категоричний коефіцієнт рівня k кодується як (k-1) бінарних манекенних змінних і коефіцієнт регресії повідомляється для кожної манекена .

Однак, можливо, обернути lm()висновок anova()(з нижнього регістру "a" з statsпакету R ) або Anova()підсумувати вплив кожного фактора на всі його рівні, як це очікує в класичній ANOVA. Тоді впорядкування факторів буде мати значення anova()як для aov(), так і не матиме значення Anova(). Аналогічно, повертаються суперечки щодо того, який тип ANOVA використовувати. Тому не можна вважати незалежність замовлення від введення факторів у всіх lm()моделях, що використовуються нижче .


* Достатня кількість рівних спостережень у всіх клітинах, але, наскільки я розумію, це не є необхідним для того, щоб порядок факторів був несуттєвим. Менш вимогливі типи балансу можуть забезпечити незалежність замовлення.


Дійсно, так, що дані спостереження були незбалансованими, дуже незбалансованими.
Farrel

Сподіваємось, цей коментар все-таки отримує відповідь тут: Ви говорите, що за збалансованим дизайном дослідження оцінка SS ніколи не буде залежати від порядку, незалежно від обраного типу тесту на ановацію (тип I, II, III). Я не впевнений, чи розумію це. використовуючи функцію 'anova' в R (яка використовує тести I типу) на лінійній моделі на основі даних, які врівноважені, безумовно, порядок функцій має значення, ні?
PejoPhylo

1
@PejoPhylo, коли дані збалансовані, тоді ви можете мати те, що називається ортогональним дизайном. За допомогою ортогональної конструкції існує один унікальний спосіб розподілу сум квадратів між обробками та їх взаємодіями, тому порядок введення обробок не матиме значення стосовно оцінок ефектів та їх p-значень. На цій сторінці подано математичне пояснення. Це не відразу очевидно; питання, яке я щойно зв'язав, задав член цього веб-сайту з однією з найвищих репутацій. Неврівноважені дані можуть зруйнувати ортогональність.
EdM

Дякую за вашу відповідь @EdM
PejoPhylo

0

Термін ієрархічна модель відноситься до структури між чинниками. Наприклад, багатоцентрове дослідження є ієрархічним: у вас є пацієнти, які вкладаються в лікарні, які їх лікують. Кожна лікарня лікує пацієнтів із плацебо та вірумом, але отримання кожного з них у лікарні А або В дещо відрізняється через певний загальний вплив лікарні на всіх їх пацієнтів (навіть може бути ефект взаємодії з експериментальним агентом). Так це називається ієрархічним ефектом.

Тепер ваші методи ектомії можуть бути ієрархічними: чи правдоподібно, що певний метод тонзилектомії дещо відрізняється (сам по собі ще не в ефекті, тому що саме ви збираєтеся оцінити та протестувати) залежно від методу аденоідектомії, який застосовувався раніше терплячий? Якщо так, то слід вказати його у своїй моделі.

Ваше зауваження, що y ~ a + b може відрізнятися від y ~ b + a, вказує на те, що щось не так. Адитивні ефекти зменшуються, тому різниці не повинно бути (крім невеликих числових відмінностей). Неправдоподібним і бажаним є те, що ефект від методів хірургічного втручання може залежати від порядку, в якому пізніше статистик визначає наслідки. Тому ви, мабуть, вибрали неправильний підхід до подачі Rданих.


1
Я не впевнений, що дотримуюся останнього пункту. У незбалансованій факториальній ANOVA значення р для кожного коефіцієнта, обчисленого через тип I (послідовну) суму квадратів, безумовно, залежатиме від порядку факторів. Я вважаю, що це вся суть питання.
амеба каже, що поверніть Моніку

Я не впевнений, чи отримав @Farrel тип I SS. Пам’ятаю, я одного разу спостерігав, як SAS видає різні типи III SS через деяке розрізнене сортування в наборі даних та в операторі моделі. Може, це може статися і з R?
Хорст Грюнбуш

2
Я не можу знати про це, і він, можливо, не пам’ятає себе, враховуючи, що Q запитували п'ять років тому. Але я думаю, що це , безумовно, найбільш парсимонічне тлумачення його слів "Модель y ~ a + b відрізняється від моделі y ~ b + a (або так, схоже, моя реалізація в R)", зокрема, враховуючи факт ця aovкоманда в R за замовчуванням використовує SS I типу. Коли я запропонував винагороду, я розраховував отримати відповідь, що пояснює проблеми незбалансованого дизайну anova, відмінності між типом I / II / III SS та деякі коментарі щодо того, чи має лінійна регресія однакові проблеми.
Амеба каже: Відновити Моніку

1
Ні. Дизайн-матриця є єдиною в anova, навіть якщо вона врівноважена, коли різниці між SS I / II / III немає. SS I / II / III відрізняються лише в неврівноваженому випадку, оскільки фактори стають неортогональними (на відміну від збалансованого випадку). На моє розуміння, це відповідає лінійній регресії з корельованими предикторами, що є дуже поширеною ситуацією. Моя відповідь полягає в тому, що та сама проблема виникає і в регресії, це просто те, що стандартно обчислювати p-значення одного предиктора після обліку наслідків усіх інших прогнозів; це відповідає типу III SS in anova.
амеба каже, що поверніть Моніку

1
Такі запитання щодо змінного порядку в ANOVA продовжують надходити, як цей мігрував із Stack Overflow вчора. Я думаю, що можна припустити, що це 5-річне запитання було подібним чином, aovа не було lm, і було б корисно мати відповідь на це питання типу, яке @amoeba вказав у коментарі від 12 травня 14:31 .
EdM
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.