Чому припущення ANOVA мають значення (рівність дисперсії, нормальність залишків)?


15

Під час роботи програми ANOVA нам кажуть, що для її застосування до даних повинні бути певні припущення тесту. Я ніколи не розумів причини, чому для тестування були необхідні наступні припущення:

  1. Варіант Вашої залежної змінної (залишки) повинен бути рівним у кожній комірці конструкції

  2. Ваша залежна змінна (залишки) повинна бути приблизно нормально розподілена для кожної комірки конструкції

Я розумію, що є трохи сірої області щодо того, чи потрібно ці припущення виконувати, але заради аргументу, якщо ці припущення були абсолютно не виконані в даному наборі даних, у чому проблема з використанням ANOVA ?


яка мета вашого дослідження?
Subhash C. Davar

Відповіді:


8

Припущення мають значення, оскільки вони впливають на властивості тестів гіпотез (та інтервалів), які ви можете використовувати, чиї розподільні властивості під нулем обчислюються, спираючись на ці припущення.

Зокрема, для тестів на гіпотези те, про що ми можемо дбати, - це наскільки справжній рівень значущості може бути від того, яким ми хочемо це бути, і чи хороша влада проти альтернативних інтересів.

Стосовно припущень, про які ви питаєте:

1. Рівність дисперсії

Варіант Вашої залежної змінної (залишки) повинен бути рівним у кожній комірці конструкції

Це, безумовно, може вплинути на рівень значущості, принаймні, коли розміри вибірки неоднакові.

(Редагувати :) F-статистика ANOVA - це співвідношення двох оцінок дисперсії (розподіл та порівняння дисперсій, тому його називають аналізом дисперсії). Знаменник - це оцінка варіабельної помилки, яка нібито є загальною для всіх клітин (обчислюється від залишків), тоді як чисельник, заснований на варіації засобів групи, матиме два компоненти: один із зміни варіантів сукупності та один через дисперсію помилок. Якщо нуль відповідає дійсності, дві дисперсії, що оцінюються, будуть однаковими (дві оцінки загальної дисперсії помилок); це загальне, але невідоме значення скасовується (тому що ми взяли коефіцієнт), залишаючи F-статистику, яка залежить лише від розподілу помилок (яка, за припущеннями, яку ми можемо показати, має розподіл F. (Подібні коментарі стосуються і t- тест, який я використовував для ілюстрації.)

[Дещо з цієї інформації у моїй відповіді тут є трохи детальніше ]

Однак, тут відмінність двох популяцій відрізняється між двома зразками різного розміру. Розглянемо знаменник (F-статистики в ANOVA і t-статистики в t-тесті) - він складається з двох різних оцінок дисперсії, а не однієї, тому він не матиме "правильного" розподілу (масштабований чі -квадра для F та його квадратного кореня у випадку at - і форма, і масштаб є питаннями).

Як результат, F-статистика або t-статистика більше не матиме F- або t-розподілу, але спосіб впливу на неї відрізняється залежно від того, велику чи меншу вибірку взяли з сукупності з тим більша дисперсія. Це в свою чергу впливає на розподіл p-значень.

За нульовим значенням (тобто, коли засоби сукупності рівні) розподіл p-значень повинен бути рівномірно розподілений. Однак, якщо дисперсії та розміри вибірки неоднакові, але засоби рівні (тому ми не хочемо відкидати нуль), значення p не розподіляються рівномірно. Я зробив невелике моделювання, щоб показати вам, що відбувається. У цьому випадку я використовував лише 2 групи, тому ANOVA еквівалентний двопробному t-тесту з рівним припущенням про дисперсію. Тож я імітував зразки з двох нормальних розподілів, одного зі стандартним відхиленням у десять разів більшим, ніж іншого, але рівними засобами.

Для лівої бічної ділянки більший ( популяційний ) стандартний відхилення був для n = 5, а менший стандартний відхилення - для n = 30. Для правого боку графік більший стандартний відхилення пішов з n = 30, а менший - з n = 5. Я імітував кожен 10000 разів і кожного разу знаходив значення p. У кожному випадку ви хочете, щоб гістограма була повністю плоскою (прямокутною), оскільки це означає, що всі тести, проведені на певному рівні значущості фактично отримують цей рівень помилок типу I. Зокрема, найважливіше, щоб крайні ліві частини гістограми знаходилися близько до сірої лінії:α

Гістограми p-значень для імітованих зразків

Як ми бачимо, лівий бічний графік (більша дисперсія у меншому зразку) p-значення, як правило, дуже малий - ми би відкидали нульову гіпотезу дуже часто (майже половину часу в цьому прикладі), хоча нуль істинний . Тобто, рівень нашої значущості набагато більший, ніж ми просили. На правій графіці ми бачимо, що значення p в основному великі (і тому наш рівень значущості набагато менший, ніж ми просили) - насправді не один раз у десяти тисяч моделювання ми відкидали на рівні 5% (найменший p-значення тут становило 0,055). [Це може не здаватись такою поганою річчю, поки ми не пам’ятаємо, що у нас також буде дуже низька потужність, щоб досягти нашого дуже низького рівня значущості.]

Це цілком наслідок. Ось чому корисно використовувати t-тест Welch-Satterthwaite типу або ANOVA, коли у нас немає вагомих причин вважати, що відхилення будуть близькими до рівних - для порівняння це ледь не впливає в цих ситуаціях (я моделював і цей випадок; два розподіли змодельованих p-значень - яких я тут не показав - вийшли досить близькими до плоских).

2. Умовний розподіл відповіді (DV)

Ваша залежна змінна (залишки) повинна бути приблизно нормально розподілена для кожної комірки конструкції

Це дещо менш безпосередньо критично - для помірних відхилень від нормальності рівень значущості так сильно не впливає на більші вибірки (хоча потужність може бути!).

нн

гістограми p-значень, коли H0 вірно, але розподіли в кожній групі експоненціальні

Ми бачимо, що при n = 5 фактично занадто мало малих p-значень (рівень значущості для тесту на 5% був би приблизно вдвічі меншим від рівня), але при n = 50 проблема зменшується - на 5% Тест в цьому випадку справжній рівень значущості становить близько 4,5%.

Таким чином, ми можемо спокуситись сказати "добре, це добре, якщо n достатньо великий, щоб рівень значущості був досить близьким", але ми можемо також викинути з себе велику силу. Зокрема, відомо, що відносна асимптотична ефективність t-тесту щодо широко використовуваних альтернатив може дорівнювати 0. Це означає, що кращий вибір тесту може отримати ту саму потужність, що зникає невеликою часткою розміру вибірки, необхідної для отримання t-тест. Вам не потрібно нічого звичайного, щоб і надалі потрібно було більше, ніж сказати вдвічі більше даних, щоб мати таку ж потужність з t, як вам потрібно при альтернативному тесті - помірно важчі, ніж звичайні хвости в розподілі населення і помірно великих зразків може бути достатньо для цього.

(Інші варіанти розподілу можуть зробити рівень значущості вищим, ніж повинен бути, або значно нижчим, ніж ми бачили тут.)


Дякую Глен за детальну відповідь. Мені цікаво, чому помилки, які ви описали, траплялися б, якщо припущення не були виконані з точки зору рівності дисперсії, чи я правильний, беручи до уваги ваше написання? більша дисперсія (як і кількість точок даних, загалом мала, тобто n = 5), що більша дисперсія, що спостерігається в меншій вибірці, обчислюється як репрезентативна дисперсія на рівні популяції.
PaperRockBazooka

(частина 2) По суті, це несправедливе порівняння між репрезентативним зразком та представницьким зразком (відносно кажучи), що може призвести до помилки типу 1 через те, як обробляється ANOVA.
PaperRockBazooka

@ Паперу, я не думаю, що це проблема тут. Це не репрезентативність дисперсії вибірки на меншій вибірці (наприклад, якби обидва зразки були однаково малими, ви мали б удвічі більше проблеми з репрезентативністю, але ця проблема відсутня). До своєї відповіді я додав кілька абзаців, щоб пояснити, як проблема виникає детальніше.
Glen_b -Встановіть Моніку

4

У двох словах, ANOVA додає , відбиває та усереднює залишки . Залишки розповідають, наскільки ваша модель відповідає вмісту даних. Для цього прикладу я використовував PlantGrowthнабір даних у R:

Результати експерименту зі порівняння врожаю (вимірюється висушеною масою рослин), отриманого під контролем та двох різних умов обробки.

Цей перший сюжет показує вам велике значення для всіх трьох рівнів лікування:

введіть тут опис зображення

Червоні лінії є залишками . Тепер, склавши квадрат і додавши довжину цих окремих рядків, ви отримаєте значення, яке говорить про те, наскільки добре середня (наша модель) описує дані. Невелика кількість, говорить вам про те, що середнє добре описує ваші дані даних, більша кількість говорить про те, що середнє описує ваші дані не так добре. Це число називається загальною сумою квадратів :

SSтотал=(хi-х¯гrанг)2хiх¯гrанг

Тепер ви зробите те саме, що і для залишків у вашому лікуванні ( Залишкові суми квадратів , який також відомий як шум у рівнях обробки):

введіть тут опис зображення

І формула:

SSrесiгуалс=(хiк-х¯к)2хiкiкх¯к

Нарешті, нам потрібно визначити сигнал у даних, який відомий як Модельна сума квадратів , який згодом буде використаний для обчислення, чи відрізняються засоби обробки від великої середньої величини:

введіть тут опис зображення

І формула:

SSмогел=нк(х¯к-х¯гrанг)2нкнкх¯кх¯гrанг

Тепер недоліком сум квадратів є те, що вони збільшуються в міру збільшення розміру вибірки. Щоб виразити ці суми квадратів відносно кількості спостережень у наборі даних, ви поділите їх на ступінь свободи, перетворивши їх на відхилення. Тож після вирівнювання та додавання точок даних ви тепер усереднюєте їх, використовуючи їх ступінь свободи:

гfтотал=(н-1)

гfrесiгуал=(н-к)

гfмогел=(к-1)

нк

Це призводить до середньої середньої площі моделі та залишкової середньої площі (обидві - дисперсії), або співвідношення сигнал / шум, яке відоме як значення F:

МSмогел=SSмогелгfмогел

МSrесiгуал=SSrесiгуалгfrесiгуал

Ж=МSмогелМSrесiгуал

Значення F описує співвідношення сигнал / шум чи чи відрізняються засоби обробки від великої середньої величини. Значення F тепер використовується для обчислення р-значень, і ті вирішать, чи принаймні один із засобів для лікування буде суттєво відрізнятися від великої середньої чи ні.

Тепер я сподіваюся, що ви можете побачити, що припущення засновані на розрахунках із залишками і чому вони важливі. Оскільки ми додаємо , співставляємо і усереднюємо залишки, ми повинні переконатися, що перед цим ми робимо, що дані в цих групах лікування поводяться аналогічно , інакше значення F може бути зміщене певною мірою, і висновки, отримані з цього значення F, можуть не дійсні.

Редагувати: Я додав два абзаци, щоб більш конкретно вирішити питання ОП 2 та 1 .

Припущення про нормальність : середнє значення (або очікуване значення) часто використовується в статистиці для опису центру розподілу, однак воно не дуже надійне і на нього легко впливати люди, які не працюють. Середнє значення - це найпростіша модель, яку ми можемо пристосувати до даних. Оскільки в ANOVA ми використовуємо середнє значення для обчислення залишків і сум квадратів (див. Формули вище), дані повинні бути приблизно нормально розподілені (припущення про нормальність). Якщо це не так, середнє може не бути відповідною моделлю для даних, оскільки це не дасть нам правильного розташування центру розподілу вибірки. Натомість колись можна було б використовувати медіану, наприклад (див. Непараметричні процедури тестування).

Припущення про однорідність варіації : Пізніше, коли ми обчислюємо середні квадрати (модельні та залишкові), ми об'єднуємо окремі суми квадратів із рівнями обробки та усереднюємо їх (див. Формули вище). Об'єднуючись і усереднюючи, ми втрачаємо інформацію про відхилення рівня лікування та їх внесок у середні квадрати. Отже, ми повинні мати приблизно однакову дисперсію серед усіх рівнів лікування, щоб внесок у середні квадрати був подібним. Якби розбіжності між цими рівнями лікування були різними, то отримані середні квадрати та значення F були б упередженими та впливатимуть на обчислення p-значень, роблячи висновки, зроблені з цих p-значень сумнівними (див. Також коментар @whuber та Відповідь @Glen_b).

Це я так бачу для себе. Це може бути не на 100% точним (я не статистик), але це допомагає мені зрозуміти, чому задоволення припущень щодо ANOVA важливо.


ЖЖЖЖЖ

ЖЖ

Дякую, Стефане. Я хочу побачити, чи я правильно вас розумію. ANOVA по суті створює велике значення з усіх точок даних набору і порівнює, наскільки далеко кожна група відрізняється від цієї великої середньої, щоб зрозуміти, чи є їх статистично значущою різницею. Якщо обговорені припущення не виконуються, велика середня
величина

SSтоталSSrесiгуалSSмогел) для визначення співвідношення сигнал / шум. Спробуйте обчислити простий односторонній ANOVA вручну. Це допомогло мені зрозуміти це краще.
Стефан

0

ANOVA це просто метод, він обчислює F-тест з ваших зразків і порівнює його з F-розподілом. Вам потрібні деякі припущення, щоб вирішити, що ви хочете порівняти, та обчислити р-значення.

Якщо ви не дотримуєтесь цих припущень, ви можете обчислити інші речі, але це не буде ANOVA.

Найбільш корисний розподіл - це звичайний (через CLT), тому він найчастіше використовується. Якщо ваші дані, як правило, не поширюються, вам потрібно принаймні знати, який його розподіл, щоб щось обчислити.

Гомоскедастичність є загальним припущенням і в регресійному аналізі, це просто полегшує справи. Для початку нам потрібні деякі припущення.

Якщо у вас немає гомоседастичності, ви можете спробувати перетворити свої дані, щоб досягти цього.

F-тест ANOVA, як відомо, є майже оптимальним в сенсі мінімізації помилкових негативних помилок для фіксованої частоти помилкових позитивних помилок


"ANOVA" відноситься до процесу розкладання сум квадратів на інтерпретуючі компоненти. Незалежно від припущень розподілу, ANOVA - це ANOVA.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.