Чи може ANOVA бути значущим, якщо жоден з парних t-тестів не є?


29

Чи можливо односторонній (з групами або "рівнями") ANOVA повідомити про істотну різницю, коли жоден з парних t-тестів не робить?N>2N(N-1)/2

У цій відповіді @whuber написав:

Добре відомо, що глобальний тест ANOVA F може виявити різницю засобів навіть у тих випадках, коли жоден індивідуальний [невідрегульований парний] t-тест жодної з парних засобів не дасть значного результату.

так мабуть це можливо, але я не розумію як. Коли це відбувається і якою буде інтуїція за таким випадком? Може хтось може надати простий іграшковий приклад такої ситуації?

Деякі подальші зауваження:

  1. Очевидно можливе протилежне: загальна ANOVA може бути несуттєвою, тоді як деякі парні t-тести помилково повідомляють про значні відмінності (тобто, це було б помилковим спрацьовуванням).

  2. Моє запитання стосується стандартних, невідрегульованих для багаторазових порівнянь t-тестів. Якщо використовуються скориговані тести (наприклад, процедура HSD Tukey), можливо, жоден з них не виявиться суттєвим, навіть якщо загальна ANOVA є. Це висвітлюється тут у кількох питаннях, наприклад, як я можу отримати значну загальну ANOVA, але немає значних парних відмінностей від процедури Tukey? та істотна взаємодія ANOVA, але несуттєві парні порівняння .

  3. Оновлення. Моє питання спочатку відносилося до звичайних Двухвиборочний попарно т-тестів. Однак, як @whuber вказував у коментарях, в контексті ANOVA t-тести зазвичай розуміють як пост-спеціальні контрасти, використовуючи оцінку ANOVA для дисперсії всередині групи, об'єднану для всіх груп (що не відбувається у двох -пробний t-тест). Тож насправді є дві різні версії мого питання, і відповідь на обидва вони виявляється позитивною. Дивись нижче.


3
Ваше запитання висвітлено у багатьох темах: спробуйте пошукати наш сайт із значним регресом . (ANOVA - це застосування регресії найменших квадратів.) Наприклад, stats.stackexchange.com/questions/14500/… дає явний приклад та деяку інтуїцію. Будь ласка, вивчіть їх та відредагуйте своє питання, якщо це можливо, щоб відрізнити його від попередніх тем.
whuber

Дякую, я цього раніше не бачив. Однак мені дуже важко перекладати ці пояснення щодо багаторазової регресії на мову порівнянь ANOVA. Це, звичайно, моя проблема, але я б здогадався, що я не один, тому, можливо, відповідь на моє запитання все-таки буде корисною для громади. Ось моя плутанина: хтось наводив приклад регресу ваги в лівій / правій розмірі взуття (два сильно співвіднесених IV) => F signif, t ні. Дуже добре. Зараз в регресії ANOVA з 3 групами є 2 манекени IV; вони манекени => завжди ідеально антикорельовані ... І що?
амеба каже, що повернеться Моніка

Боюся, я не дотримуюся цього останнього зауваження. По-перше, питання не обов'язково пов'язане з сильною кореляцією в проектній матриці. По-друге, манекени не є "ідеально антикорельованими": якби вони були, програмне забезпечення все одно повинно було б кинути одну з них. Можливо, ви маєте на увазі більш тонкі проблеми у складніших моделях ANOVA .
whuber

@amoeba: ваші фіктивні змінні негативно співвідносяться.
Майкл М

3
Я беру виняток із вашого "подальшого зауваження" ні. 1. Тільки тому, що у вас є дуже вагомі парні порівняння, і несуттєвий F не означає, що ці значні результати є помилковими. Для того, щоб точно знати, що щось є помилковим позитивом, ви повинні знати, що різниці в фактичних засобах, му - це, немає. Статистика F не є священною. Насправді це навіть не обов’язково. Це найкорисніше для вибору моделі, але крім того, навряд чи це є інформативним, що конкретно відбувається у ваших даних.
rvl

Відповіді:


18

Примітка. У моєму оригінальному прикладі щось не так. Я тупо потрапив у безшумну аргументацію Р. Мій новий приклад досить схожий на мій старий. Сподіваємось, все зараз.

Ось приклад, який я зробив, який має значення ANOVA на рівні 5%, але жодне з 6 парних порівнянь не є істотним, навіть на рівні 5% .

Ось дані:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

введіть тут опис зображення

Ось ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Ось два зразкових t-тестових p-значень (припущення про рівну дисперсію):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Якщо трохи більше сподобається з груповими засобами або окремими точками, різниця в значущості могла б бути більш вражаючою (оскільки я міг би зробити перше значення p меншим і найнижчим з набору шести p-значень для t-тесту вищим ).

-

Редагувати: Ось додатковий приклад, який спочатку створювався шумом щодо тенденції, який показує, наскільки краще ви можете зробити, якщо трохи перемістити точки:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F має значення p нижче 3%, а жодне з t не має p значення нижче 8%. (Для прикладу 3-х груп - але з дещо більшим р-значенням на F - опустіть другу групу)

І ось справді простий, якщо більш штучний, приклад з 3 групами:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(У цьому випадку найбільша дисперсія знаходиться в середній групі, але через більший розмір вибірки там стандартна помилка середньої групи все ще менша)


Багаторазові порівняння t-тестів

Уабер запропонував розглянути випадок численних порівнянь. Це виявляється досить цікавим.

Справа з декількома порівняннями (усі проводилися на початковому рівні значущості - тобто без коригування альфа для декількох порівнянь) домогтися дещо складніше, оскільки розігрування з більшими та меншими відхиленнями або все більша та менша кількість df у різних групах не допомагають так само, як це роблять із звичайними двопробними тестами.

Однак у нас ще є інструменти маніпулювання кількістю груп та рівнем значущості; якщо ми виберемо більше груп і менший рівень значущості, це знову стане відносно простим для виявлення випадків. Ось один:

нi=2α=0,0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

І все ж найменше р-значення при попарних порівняннях не суттєво, ніж цей рівень:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
Двопробний t-тест - це не те саме, що парні тести в регресії. Відмінність полягає в оцінках залишкової дисперсії. Таким чином, ваші приклади насправді не є прикладами сильнішого парадоксу, який полягає в тому, що в рамках одного і того ж регресійного аналізу F-тест може бути вагомим, тоді як жодне його парне порівняння не є суттєвим. Я вважаю, що цей парадокс не обов'язково виникає і з гетеросцедастичності: він може з'явитися навіть тоді, коли всі групові дисперсії рівні.
whuber

4
Більш цікаво ще може бути адреса , коли це можливо для F-тест , щоб відхилити нуль , але жоден з попарно т-тестів, щоб відхилити його на той же рівень значущості (використовуючи ту ж оцінку дисперсії помилки , як F-тест). Наприклад, для 3 груп з рівними розмірами вибірки об'єднання 5% області відхилення для парних t-випробувань містить 5% область відхилення для F-тесту ANOVAR, навіть коли розмір вибірки стає дуже великим.
Scortchi

4
0,005Ж

4
Амеба, плутанина виникає через те, що "парні тести" можуть означати дві речі. У контексті ANOVA зазвичай розуміють поступові контрасти з використанням оцінок ANOVA. Як зазначали інші, це не те саме, що проведення звичайного t-тесту на парах груп, оскільки версія ANOVA заснована на оцінці дисперсії всередині групи, отриманої від усіх груп.
whuber

2
Я думаю, ви зробили хороший підсумок. Я назвав парадокс "сильнішим" в тому сенсі, що коли всі тести проводяться в рамках одного аналізу ANOVA, можна (наївно) очікувати, що вони будуть внутрішньо послідовними. (Коли ви проводите два набори тестів, які не пов'язані між собою, це не повинно бути несподіванкою, коли вони дають суперечливі результати. Це трапляється часто.) Ми повинні визнати, що для висновку цієї групи логічно послідовно та статистично обгрунтовано. засоби значно відрізняються, не знаходячи різниць між будь-якими певними парами груп.
whuber

4

Резюме: Я вважаю, що це можливо, але дуже, дуже малоймовірно. Різниця буде невеликою, і якщо це станеться, це тому, що припущення було порушено (наприклад, гомоскедастичність дисперсії).

Ось якийсь код, який шукає таку можливість. Зауважте, що він збільшує насіння на 1 раз під час його запуску, так що насіння зберігається (а пошук через насіння є систематичним).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Шукаючи значущого R2 та жодних несуттєвих t-тестів, я не знайшов нічого до насіння 18000. Шукаючи більш низьке значення p від R2, ніж у t-тестах, я отримую результат при насінні = 323, але різниця дуже-дуже мала. Цілком можливо, що налаштування параметрів (збільшення кількості груп?) Може допомогти. Причиною того, що значення R2 p може бути меншим, є те, що коли обчислюється стандартна помилка для параметрів регресії, всі групи поєднуються, тому стандартна похибка різниці потенційно менша, ніж у t-тесті.

Мені було цікаво, чи може порушити гетероскедастичність (як би). Це робить. Якщо я користуюся

y <- (rnorm(600) + x * 0.01) * x * 5

Щоб генерувати y, тоді я знаходжу відповідний результат у насінні = 1889, де мінімальне значення р із t-тестів становить 0,061, а p-значення, пов'язане з R-квадратом, становить 0,046.

Якщо я варіюю групові розміри (що збільшує ефект порушення гетероскедастичності), замінюючи вибірку x на:

x <- sample(c(0:5), 100, replace=TRUE)

Я отримую вагомий результат при насінні = 531, при мінімальному p-тесті р-значення на 0,063 та р-значенні для R2 на 0,046.

Якщо я припиняю виправляти гетероскедастичність у t-тесті, використовуючи:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Я можу зробити висновок, що це малоймовірно, що відбудеться, і різниця, ймовірно, буде дуже малою, якщо ви не порушили припущення гомоскедастичності в регресії. Спробуйте запустити свій аналіз на надійний / сендвіч / все, що ви хочете назвати це виправленням.


У вас, здається, є незакінчене речення, що починається з "Якщо я перестану виправляти гетероцедастичність у t-тесті". Крім того, велике спасибі! Будь ласка, дивіться моє оновлення до питання. Також зверніть увагу на перший коментар @ whuber тут; якщо я правильно розумію, він наполягає на тому, що така ситуація може легко (?) трапитися (і називає це "добре відомим"). Можливо, тут є якесь непорозуміння, але що це?
Амеба каже: Відновити Моніку

Я думаю, що @whuber говорить про несуттєві параметри в моделі, а не про значущі t-тести.
Джеремі Майлз

Ні, його немає. Якщо це добре відомо, я цього не знаю, і я намагався знайти приклад, і не можу.
Джеремі Майлз

1
Тоді я радий, що @Glen_b дав простий приклад. Інтуїція полягає в тому, що загальний тест оцінює, чи є докази того, що поширення в групі означає, що неможливо пояснити лише залишковою дисперсією. Паральні тести, що включають лише два засоби одночасно, повинні бути значно консервативнішими в оцінці одних і тих же доказів. Тому навіть порівняння двох засобів крайньої групи може не виявити суттєвої різниці, коли загальний розподіл усіх засобів є значним. Це іноді трапляється на практиці, особливо з великою кількістю груп.
whuber

3
До речі, причина називати це "добре відомим" випливає з мого спогаду про попередження про це в посібнику із програмного забезпечення Systat c. 1989. Це був дуже повчальний посібник (більшість його написав особисто розробник Леланд Вілкінсон ), і, мабуть, все ще є. Посібник є в Інтернеті, але вам потрібно зареєструватися на сайті Systat, щоб мати змогу завантажити його.
whuber

2

Це цілком можливо:

  • Один або кілька парних t-тестів є знаковим, але загальний F-тест не є
  • Загальний F-тест є значущим, але жоден парний t-тест не є

Загальні тестові випробування F всі контрастують одночасно . Таким чином, він повинен бути менш чутливим (менше статистичної потужності) до окремих контрастів (наприклад: парний тест). Два тести тісно пов'язані один з одним, але вони не повідомляють про абсолютно одне і те ж.

Як бачимо, рекомендація підручника не робити планових порівнянь, якщо загальний тест на F є значним, не завжди є правильним. Насправді, рекомендація може завадити нам знайти значні відмінності, оскільки загальний тест F має меншу потужність, ніж заплановані порівняння для тестування конкретних відмінностей.


Я не впевнений, що я дотримуюся логіки вашої відповіді. Ви хочете сказати, що відхилення H0 тестом F означає, що існує хоча б один ненульовий контраст, але цей контраст може не відповідати жодному з парних порівнянь? Якщо так, чи означає це, що якщо F-тест відхиляє H0, то принаймні один з парних тестів на всіх можливих контрастах також призведе до відхилення?
амеба каже: Поновіть Моніку

@amoeba Я відредагував свою відповідь.
SmallChess
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.