Це все в сім’ї; але чи включаємо ми і закони?

Припустимо, я маю експеримент з двома і більше факторами. Загальна ANOVA будується, і потім ми проводимо подальші дії з двома або більше наборами пост-спеціальних тестів, скажімо, декілька порівнянь. Моє запитання - про те, наскільки великі --- і скільки --- сімей повинні бути використані як основа для коригування кратності цих пост-спеціальних тестів.

Прикладом може слугувати набір викривлених даних із книги Тукі про EDA. Є два фактори: wool(на двох рівнях) та tension(на трьох рівнях). Таблиця ANOVA:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69

Зрозуміло, що взаємодія потрібна в моделі. Тому ми вирішуємо порівняти рівні кожного фактора, тримаючи інший фактор фіксованим. Результати наведені нижче, з деякими примітками, про які потрібно згадати пізніше:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

Я думаю, що існують різні практики, і мені цікаво, які є найпоширеніші та які аргументи люди висловлюють за чи проти кожного підходу. Чи обчислюємо коригувані значення , чи слід робити коригування кратності для ... $P$

кожна з п’яти найменших сімей (T | A, T | B, ..., W | H) окремо? (Примітка. Останні 3 сім’ї мають лише один тест, щоб не було коригування кратності для цих)
кожна з більших сімей (Т, з 6 тестами і W, з 3 тестами) окремо?
всі тестів, які вважаються однією великою родиною? $6+3=9$

Мене цікавить і те, що зазвичай роблять люди (навіть якщо вони не багато про це думали), і чому (якщо вони є). Я можу зазначити кілька речей:

У таблиці ANOVA є 3 тести наЯ не пам'ятаю, як хтось розглядав коригування кратності на тестах ANOVA. Якщо це так, і ви рекомендуєте варіант (3), чи не відповідаєте ви? $F$
Якби ми провели дещо менший експеримент, де всі тести є менш потужними, можливо, взаємодія не була б істотною, що призвело б до набагато меншої кількості пост-спеціальних порівнянь лише граничних засобів. Більше того, граничні засоби цілком можуть мати менші СЕ, ніж засоби, що мають клітини у більшому експерименті. Якщо, крім того, коригування кратності менш консервативне, ми могли б мати більш "значні" результати з меншою кількістю даних, ніж у нас з більшою кількістю даних.

Цікаво подивитися, що люди мають сказати ...

multiple-comparisons post-hoc

— Расс Лент
джерело

Ніхто ще не відповів, тому я на це поламаю.

На мою думку (і я хотів би почути думки інших), що в цьому випадку ви повинні налаштовуватися на повні 9 тестів. Якщо припустити, що ми використовуємо сімейне виправлення рівня помилок,

Ми одночасно робимо висновки з усіх 9 тестів одночасно. Тобто скануйте список і побачите, щоб знайти щось важливе.
Щоб зробити це, ми розглядаємо загальний рівень помилок у сімейному рівні - 5%. Альтернативою було б індивідуально виправити групи до 5% FWER. Це означатиме, що під час інтерпретації ми не могли інтерпретувати тести разом, а скоріше треба було б переглянути перші 6 тестів і подумати, що існує 5% шанс помилкового позитивного, а потім згодом вивчити кожен подальший тест, по черзі знаючи що існує 5% шансів на помилковий позитив для кожної групи . Корисність багаторазової корекції тестування IMO полягає в тому, що ми здатні одночасно робити висновки з декількох тестів одночасно. Більш логічним здається, що ми повинні переглянути всі 9 тестів і знати, що існує 5% шанс помилкового позитиву, а не розглядати їх окремо, схоже на те, щоб зовсім не виправляти.
Питання коригування трьох -тестів у ANOVA цікавий, але, на мою думку, актуальним лише у тому випадку, якщо ви плануєте зробити якийсь вибір моделі, в якому ви приймаєте лише значущих прогнозів. Це може бути хорошим читанням, конкретно висновок - дуже короткий і відмінний. Я вкрав це посилання з цього питання. $F$
Ваша думка щодо включення ефектів взаємодії цікава, і я думаю, ви могли б визначити це як вибір моделі. Ви б включили ефекти взаємодії, якби вони були значущими? У цьому випадку, можливо, статистику у вихідній ANOVA слід було б скоригувати, щоб полегшити вибір значущих прогнозів. $F$

В цілому я думаю, що якщо ви робите одночасний висновок з групи, ви повинні врахувати кожен тест у цій групі для виправлення. Інакше стандартне розуміння рівня помилок контрольованої групи не витримує, і концептуально досить важко відстежувати, що було скориговано, а що ні. Набагато краще, на мій погляд, притягнути до відповідальності всі тести та утримувати рівень помилок, що відповідають вимогам сім’ї, за певний поріг.

Якщо у вас є спростування, я б хотів їх почути, і я впевнений, що деякі люди не погоджуються з деякими речами тут. Дуже зацікавлено почути чужі думки.

— Кріс С
джерело

Дякую. Добре продуманий. Побічне питання: чи можна змусити SAS це зробити? Я так не думаю, але про SAS є багато, що я не знаю. Це актуально, тому що я думаю, що такий тип коригування рідко використовується на практиці.

— Russ Lenth

На жаль, я не знаю стільки про SAS, вибачте @rvl. Можливо, хтось ще побачить це і допоможе. Я сподіваюсь, що у вас з’явиться ще кілька людей, що лунають на це питання, це дуже хороший питання, про який люди не дуже часто думають про це.

— Кріс С

це добре - я просто роздумував над тим, що насправді можна легко зробити з існуючим програмним забезпеченням. Якщо консенсус зводиться до варіанту 3, нам потрібна підтримка програмного забезпечення!

— Russ Lenth

... але тепер це можна зробити в Р. Див. нову відповідь, яку я опублікував у відповідному питанні, stats.stackexchange.com/questions/165125/… . Саме це питання мене змусило замислитися з цим питанням.

— Russ Lenth

Дуже круто! Ви підтримувач lsmeans? На це питання було багато роботи!

— Кріс C