Як інтерпретувати тип I, II тип та III тип ANOVA та MANOVA?


45

Моє первинне питання - як інтерпретувати вихід (коефіцієнти, F, P) при проведенні типу I (послідовного) ANOVA?

Моя конкретна дослідницька проблема трохи складніша, тому я розбию свій приклад на частини. По-перше, якщо мене цікавить вплив густоти павуків (X1) на ріст рослини (Y1) і я висаджував розсаду у вольєри та маніпулював щільністю павуків, то я можу проаналізувати дані за допомогою простої ANOVA або лінійної регресії. Тоді було б неважливо, чи використовував я тип I, II або III суму квадратів (СС) для своєї ANOVA. У моєму випадку у мене є 4 повтори 5 рівнів щільності, тому я можу використовувати щільність як фактор або як безперервну змінну. У цьому випадку я вважаю за краще інтерпретувати це як суцільну незалежну (предикторну) змінну. У RI може працювати наступне:

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

Запуск функції anova матиме сенс для порівняння пізніше, сподіваємось, тому, будь ласка, ігноруйте тут дивацтва. Вихід:

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107 

Скажімо, я підозрюю, що початковий рівень неорганічного азоту в ґрунті, який я не міг контролювати, також може суттєво вплинути на ріст рослин. Я не особливо зацікавлений у цьому ефекті, але хотів би потенційно пояснити різні зміни, які він викликає. Дійсно, мій основний інтерес викликає вплив павутинної щільності (гіпотеза: збільшення густоти павуків викликає збільшення росту рослин - імовірно, через зменшення травоїдних комах, але я лише тестую дію, а не механізм). Я міг би додати ефект неорганічного N до свого аналізу.

Для мого запитання зробимо вигляд, що я перевіряю щільність взаємодії * неорганічнийN, і це несуттєво, тому я видаляю її з аналізу та запускаю такі основні ефекти:

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175 

Тепер це має різницю, використовую я тип I або тип II SS (я знаю, що деякі люди заперечують проти термінів типу I і II тощо), але, зважаючи на популярність SAS, це дуже просто. R anova {stats} використовує тип I за замовчуванням. Я можу обчислити тип II SS, F і P для щільності, змінивши порядок моїх основних ефектів, або можу використовувати пакет "автомобіль" доктора Джона Фокса (супутник застосованій регресії). Я віддаю перевагу останньому методу, оскільки він легший для складніших проблем.

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17  

Я розумію, що гіпотезами типу II було б: "Немає лінійного ефекту x1 на y1, враховуючи ефект (утримуючи постійну?) X2", і те саме для x2, заданого x1. Я думаю, що тут я плутаюсь. Яка гіпотеза тестується ANOVA за допомогою методу типу I (послідовний) вище порівняно з гіпотезою, що використовує метод II типу?

Насправді мої дані трохи складніші, оскільки я вимірював численні показники росту рослин, а також динаміку поживних речовин та розкладання посліду. Мій фактичний аналіз приблизно такий:

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16                                           

Відповіді:


71

nn11n12n21n22r=.1rє "значущим", це все населення, яке вам цікаво). Проблема співвідношення ваших факторів полягає в тому, що є суми квадратів, пов’язаних як з A, так і з B. При обчисленні ANOVA (або будь-якої іншої лінійної регресії) ми хочемо розділити суми квадратів. Розділ розміщує всі суми квадратів в одну і єдинукількох підмножин. (Наприклад, ми можемо захотіти поділити СС на A, B і помилку.) Однак, оскільки ваші фактори (все ще тут лише A і B) не є ортогональними, немає єдиного розділу цих СС. Насправді, розділів може бути дуже багато, і якщо ви готові розрізати свій СС на фракції (наприклад, "Я покладу .5 в цей контейнер і .5 в той"), існують нескінченні розділи. Спосіб уявити це - уявити символ MasterCard: Прямокутник являє собою загальний SS, і кожен з кіл являє собою SS, які можна віднести до цього фактору, але зауважте перекриття між колами в центрі, ці SS можуть бути задані до будь-якого кола.

введіть тут опис зображення

Питання полягає в тому, як з усіх цих можливостей вибрати «правильний» розділ? Давайте повернемо взаємодію і обговоримо деякі можливості:

Тип I SS:

  • SS (A)
  • SS (B | A)
  • SS (A * B | A, B)

Тип II SS:

  • SS (A | B)
  • SS (B | A)
  • SS (A * B | A, B)

Тип III СС:

  • SS (A | B, A * B)
  • SS (B | A, A * B)
  • SS (A * B | A, B)

Зауважте, як працюють ці різні можливості. Тільки SS типу I фактично використовує ці СС у частині, що перекривається між колами в символі MasterCard. Тобто, СС , які можна було б віднести до А або В, які на самому справі віднести до одного з них , коли ви використовуєте тип I SS ( в Зокрема, один ви увійшли в модель першого). У двох інших підходів, то перекриваються SS не використовуються взагалі . Таким чином, тип I SS надає A всі SS, які можна віднести до A (включаючи ті, які також можна було б віднести до іншого місця), потім дає B всі решта SS, які можна віднести до B, потім дає взаємодію A * B всі з рештиSS, які можна віднести до A * B, і залишає залишені, які нічого не можна віднести до терміну помилки.

Тип III SS надає лише A, які однозначно приписуються A, а також B і взаємодію тих SS, які їм однозначно приписуються. Термін помилки отримує лише ті СС, які не можна було віднести до жодного з факторів. Таким чином, ті "неоднозначні" СС, які можна було б віднести до 2 і більше можливостей, не використовуються. Якщо підсумовувати тип III SS у таблиці ANOVA, ви помітите, що вони не дорівнюють загальній SS. Іншими словами, цей аналіз повинен бути помилковим, але помиляється якось епістемічно консервативним чином. Багато статистиків вважають такий підхід жахливим, однак урядові установи (я вважаю, що FDA) вимагає їх використання.

Підхід типу II призначений для того, щоб відобразити те, що може бути вартим ідеї, що стоїть за типом III, але пом'якшує її надмірність. Зокрема, він тільки регулює SS для A і B один для одного, а не взаємодію. Однак на практиці тип II СС по суті ніколи не використовується. Вам потрібно буде знати про все це і бути достатньо кмітливим з вашим програмним забезпеченням, щоб отримати ці оцінки, а аналітики, які, як правило, вважають, що це двояко.

Є більше типів СС (я вважаю, IV і V). Їм запропонували в кінці 60-х розібратися з певними ситуаціями, але згодом було показано, що вони не роблять того, що думали. Таким чином, на даний момент вони є лише історичною виноскою.

Щодо того, на які питання вони відповідають, ви, як правило, маєте це право вже у своєму запитанні:

  • Оцінки, що використовують SS I типу, показують, яку величину змінності в Y можна пояснити A, скільки залишкової мінливості можна пояснити B, скільки решту залишкової змінності можна пояснити взаємодією тощо, в порядку .
  • Оцінки на основі типу III SS говорять про те, скільки залишкової мінливості в Y може бути зараховано A після обліку всього іншого, а скільки залишкової мінливості в Y може бути зараховано B після обліку всього іншого а також тощо. (Зверніть увагу, що обидва мають одночасно і перший, і останній час; якщо це має сенс для вас і точно відображає ваше дослідницьке питання, тоді використовуйте тип III SS.)

2
дякую за дуже корисну відповідь. Інша область, де я плутаюсь, полягає в тому, що якщо "Оцінки за допомогою типу I SS розповідають, скільки змінності в Y можна пояснити A, скільки залишкової змінності можна пояснити B, скільки залишку, що залишилася мінливість може бути пояснена взаємодією тощо, щоб ", чому чому статистика асоціюється з A, коли змінюються додаткові змінні? Це тому, що тести засновані на SS (A) / SS (помилка), а помилка є функцією всіх термінів в моделі? Я правильно це думаю?
djhocking

1
Під "статистикою, асоційованою з A", я інтерпретую вас як значення F і p для основного ефекту A. Значення F для A - відношення середнього квадрату для A (тобто, SSA / dfA) до Помилка MS. У міру додавання більшої кількості факторів СС приймають із терміна помилки і надають цим чинникам. Взагалі це означає, що помилка MS падає, а отже, коефіцієнт збільшується. В результаті F-значення для A стає більшим, а p-значення стає меншим. Тому що міри свободи також змінюються, це може бути складніше, ніж це, але це суть його.
gung - Відновіть Моніку

На жаль, я мав на увазі MS (A) / MSE для F статистики. У будь-якому випадку, ваша відповідь ідеальна, ще раз дякую за всю вашу допомогу!
djhocking

Мені цікаво про деталі інтерпретації при використанні типу I. У моєму випадку щільність - моя єдина мінлива інтерес і єдина, якою я експериментально маніпулював. Хоча прикро, щільність незначна сама по собі або після обліку двох моїх інших змінних, що цікавлять (непредметники, неорганічніN типу II або III). Але оскільки неорганічнийN, очевидно, пояснює значну частину варіацій деяких залежних змінних, коли я додаю його як 3-ту змінну, це робить інші 2 дуже значущими. Отже, чи дійсно щільність має суттєвий вплив на Y? Це розумно?
djhocking

2
@JonBonJovi, аналогія MasterCard має лише 2 фактори. Якщо ви хочете 2 фактори плюс взаємодія, то вам знадобляться 3 області, які дещо перетинаються. Безумовно, можна намалювати схему Ейлера з 3-х областей, але я просто використовував символ MasterCard для простоти. Для взаємодії уявіть 3-е коло, яке перекриває перші 2 (наприклад, воно може бути в центрі справа-наліво, але переважно над іншими); тоді все коло A (SS) перейде до A, все в B, що не перекривається A, переходить до B, а все в A B, що не перекривається * або A, або B переходить до взаємодії.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.