Чи потрібен нам глобальний тест перед тимчасовими тестами?


54

Я часто чую, що післяпрограмні тести після ANOVA можна використовувати лише в тому випадку, якщо сама ANOVA була значною.

  • Однак після спеціальні тести коригують значення щоб утримувати глобальний рівень помилок типу I на рівні 5%, чи не так?p
  • Тож для чого нам спочатку потрібен глобальний тест?
  • Якщо нам не потрібен глобальний тест, чи правильно термінологія "post hoc"?

  • Чи існує кілька видів пост-тестів, деякі припускають значний результат глобального тестування, а інші без цього припущення?

Відповіді:


58

Оскільки багаторазові порівняльні тести часто називають "посттестами", ви можете подумати, що вони логічно слідують за одностороннім ANOVA. Насправді це не так.

" Невдала поширена практика - проводити багаторазове порівняння лише тоді, коли гіпотеза про однорідність корпусу відкидається. " ( Hsu, стор. 177 )

Чи будуть результати після тестів дійсними, якщо загальне значення Р для ANOVA перевищує 0,05?

Дивно, але відповідь - так. За одним винятком, післятестові тести дійсні, навіть якщо загальна ANOVA не знайшла значної різниці серед засобів.

Виняток - перший винайдений тест на багаторазове порівняння, захищений тест Fisher Lest Significant Difference (LSD). Перший крок захищеного тесту на LSD - це перевірити, чи загальна ANOVA відхиляє нульову гіпотезу однакових засобів. Якщо цього не відбувається, не слід проводити індивідуальних порівнянь. Але цей захищений тест на LSD застарів і більше не рекомендується.

Чи можливо отримати «значний» результат за допомогою тесту численних порівнянь, навіть коли загальна ANOVA не була суттєвою?

Так, це можливо. Виняток - тест Шеффе. Він переплітається із загальним тестом на F. Якщо загальна величина ANOVA має значення Р, що перевищує 0,05, тест Шеффе не знайде значних після тестів. У цьому випадку виконання тестів після загальної незначної ANOVA є марною витратою часу, але не призведе до неправдивих висновків. Але інші багаторазові тести порівняння можуть виявити значні відмінності (іноді) навіть тоді, коли загальна ANOVA не показала суттєвих відмінностей між групами.

Як я можу зрозуміти очевидне протиріччя між твердженням ANOVA, що насправді всі засоби групи однакові і після тестових відмінностей?

Загальна однобічна ANOVA перевіряє нульову гіпотезу про те, що всі групи лікування мають однакові середні значення, тому будь-яка різниця, яку ви спостерігали, пов’язана з випадковим відбором. Кожен пост тест перевіряє нульову гіпотезу про те, що дві конкретні групи мають однакові засоби.

Пост-тести є більш зосередженими, тому майте змогу знаходити відмінності між групами, навіть коли загальна ANOVA повідомляє, що відмінності серед засобів не є статистично значущими.

Чи корисні результати загальної ANOVA взагалі?

ANOVA перевіряє загальну нульову гіпотезу про те, що всі дані походять із груп, які мають однакові засоби. Якщо це ваше експериментальне питання - чи дані надають переконливі докази того, що засоби не всі однакові - ANOVA - це саме те, що ви хочете. Найчастіше на ваші експериментальні запитання більш цілеспрямовано і на них відповідають багаторазові порівняльні тести (посттести). У цих випадках ви можете сміливо ігнорувати загальні результати ANOVA та переходити до результатів після тестування.

Зауважимо, що для численних обчислень порівняння використовуються результати середнього квадрату з таблиці ANOVA. Тож навіть якщо ви не піклуєтесь про значення F або значення P, після тестів все-таки потрібно зарахувати таблицю ANOVA.


1
Це чудова відповідь Гарві - дякую, що написав це!
pmgjones

3
(+1) Останні два абзаци дають хороший контекст для розуміння та оцінки всієї відповіді.
whuber

4
Відмінна відповідь, і я додам кілька цитат з Максвелла і Делані (2004): "... ці методи [наприклад, Бонферроні, Тукі, Даннет та ін.] Слід розглядати як замінники тесту омнібуса, оскільки вони керують альфа-вами у тебе бажаний рівень сам по собі. Потрібна значна перевірка омнібусів перед тим, як приступити до виконання будь-якого з цих аналізів, як це робиться іноді, служить лише для опущення alphaEW нижче потрібного рівня (Bernhardson, 1975) і, отже, неналежним чином зменшує потужність "(стор. 236) .
dfife

Мені подобається "так що у мене є сили знаходити відмінності між групами ..."
SmallChess

Хоча це не питання, я думаю, що я повинен зазначити - оскільки це може бути не очевидним - що зворотна ситуація також можлива в деяких ситуаціях (тест
всеобучу

25

(1) Пост- тести можуть або не можуть домогтися номінальної глобальної помилки типу I, залежно від (а) чи коригує аналітик кількість тестів і (б) наскільки пост-спеціальні тести не залежать від одного інший. Застосування глобального тесту спочатку є досить міцним захистом від ризику (навіть ненавмисного) виявлення фальшивих "значних" результатів, отриманих від післяпрофільних даних.

(2) Існує проблема влади. Добре відомо, що глобальний тест ANOVA F може виявити різницю засобів навіть у випадках, коли жоден індивідуальний t-тест жодної з парних засобів не дасть значного результату. Іншими словами, в деяких випадках дані можуть виявити, що справжні засоби ймовірно відрізняються, але вони не можуть з достатньою впевненістю визначити, які пари засобів відрізняються.


Re (2): коли ви говорите, що односторонній ANOVA може повідомити про істотну різницю, коли жоден з парних t-тестів не робить, ви посилаєтесь на прості невідрегульовані ("не повідомлення", наприклад, не процедура Тукі чи що-небудь) t-тести? Я думав, що це ніколи не стане можливим, я помилявся?
амеба каже, що повернеться Моніка

@amoeba Правильно; Я маю на увазі невідрегульовані парні тести. Дякую за роз’яснення цього пункту.
whuber

Дякую, @whuber. Я намагався знайти дискусію з цього приводу тут на CrossValided, але безрезультатно. Тож я розмістив власне запитання про те, як можлива така ситуація: stats.stackexchange.com/questions/83030/… . Я був би дуже вдячний, якби ви могли там детальніше розробитись!
Амеба каже, що повернеться до Моніки

3
@amoba та @whuber: Ви, мабуть, це знаєте, але я хотів би це все-таки уточнити. Зверніть увагу, що тест ANOVA може бути суттєвим, навіть якщо жоден з тестів Hkey на HSD Tukey не є. Простий R-приклад із збалансованим набором даних із трьома групами:set.seed(249); group = rep(1:3, each=2); y = group + rnorm(6); mod = aov(y~factor(group)); summary(mod); TukeyHSD(mod); plot(y~group)
Карл Ове Хаффхаммер

1
Ну, чи не могли ви принаймні припустити, що існує різниця між двома засобами з найбільшою різницею між ними, оскільки нульова гіпотеза ANOVA полягає в тому, що принаймні одна пара засобів відрізняється один від одного?
Speldosa
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.