На яке запитання відповідає ANOVA?


10

Я хочу навчитися ANOVA. Перш ніж я почати вивчати, як працює алгоритм (які обчислення потрібно робити) і чому він працює, я спершу хотів би дізнатися, яку проблему ми насправді вирішуємо за допомогою ANOVA, або на яку відповідь ми намагаємось відповісти. Іншими словами: Що таке вхід і що є результатом алгоритму?

Я розумію, що ми використовуємо як вхід. У нас є набір чисел. Кожне число має значення однієї або декількох категоричних змінних (також відомих як "фактори"). Наприклад:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

Чи правильно сказати, що ANOVA обчислює p-значення нульової гіпотези, яка говорить про відсутність впливу факторів на середнє значення? Іншими словами, подаємо наведені вище дані в алгоритм і в результаті отримуємо p-значення нульової гіпотези?

Якщо це так, то який захід ми насправді використовуємо для обчислення р-значення. Наприклад, можна сказати, що з огляду на нульову гіпотезу М може бути настільки ж високою, як спостережувана (або навіть вище) випадково в 1% випадків. Що таке М?

Чи ми також не досліджуємо фактори ANOVA окремо? Чи може ANOVA сказати, що фактор_1 має ефект, але фактор_2 ні? Чи може ANOVA сказати, що для заданих факторів значення, відповідні значенням "A", "B" і "C", статистично не відрізняються (мають однакове середнє значення, наприклад), але значення "D" має ефект?

Відповіді:


6

ANOVA розшифровується як "Аналіз варіації". Він, як не дивно, аналізує дисперсію.

Будемо трохи чіткішими. Ваші спостереження виявлять певну дисперсію. Якщо групувати свої спостереження за фактором 1, дисперсія в групах, визначених фактором 1, буде меншою, ніж загальна дисперсія. Фактор 1 "пояснює дисперсію".

Однак цього недостатньо для того, щоб зробити висновок, що фактор 1 насправді має відношення до ваших спостережень ... тому що групування за будь-чим , що "пояснить" дисперсію. Хороша річ у тому, що ми знаємо, скільки дисперсії буде пояснено під нульовою гіпотезою, що ваш фактор насправді не має нічого спільного з вашими спостереженнями. Ця кількість дисперсії, що пояснюється під нуль, описується розподіломF

Таким чином, стратегія ANOVA полягає в оцінці загальної дисперсії та дисперсії в межах груп (використовуючи суми квадратів) та приймаючи співвідношення цих розрахункових дисперсій. Це співвідношення є статистикоюПотім ми порівнюємо цю статистику з критичною величиною розподілу в односторонньому тесті, отримуючи ваше значення. Кількість рівнів факторів переходить в один параметр розподілу (більше рівнів факторів пояснить більше дисперсії під нульовою гіпотезою), а кількість спостережень та кількість рівнів переходить в інший. Це попереднє питання може бути корисним.FFFpF

(Чому однобічний тест? Тому що, як вище, будь-яке групування пояснить певну дисперсію, тому має сенс лише перевірити, чи пояснює ваш коефіцієнт значно велику кількість дисперсії.)

У розділі "Мотиваційний приклад" запису у Вікіпедії є дуже приємні ілюстрації факторів, які пояснюють дуже мало, деякі та багато загальної дисперсії.

Двостороння ANOVA та взаємодія, як у вашому прикладі, а також ANCOVA - це лише узагальнення на цю тему. У кожному випадку ми досліджуємо, чи додавання якоїсь пояснювальної змінної пояснює значно велику кількість дисперсії.

Після того, як у нас є вагомий загальний тест на , ми можемо перевірити, чи спостереження певних рівнів факторів суттєво відрізняються від інших у пост-спеціальних тестах . Наприклад, D може відрізнятися від A, B і C, але вони можуть не сильно відрізнятися один від одного. Зазвичай для цього ви використовуєте тестів. Це попереднє питання може бути корисним, як і це .Ft


Отже, ми використовуємо все число для обчислення загальної дисперсії , потім обчислюємо відхилення для кожної групи і, нарешті, поєднуємо всі ці дисперсії (можливо, також із розмірами групи), щоб отримати "міру": . Тоді ми обчислюємо ймовірність того, що M буде такою ж великою, або навіть більшою, за умови, що нульова гіпотеза правильна. VviM=M(V,v1,v2,...,vk,n1,n2,...,nk)
Роман

Саме так. - ваша статистика. Ось фактична формула. MF
Стефан Коласа

Якщо чесно, я все ще трохи розгублений. Наскільки я вас отримав, ANOVA повертає p-значення нульової гіпотези. Але з іншого боку, з "мотиваційного прикладу" з Вікіпедії можна зробити висновок, що ANOVA дає нам найкращий фактор (або поєднання факторів), що "пояснює" дані найкраще. Так, у прикладі ANOVA сказано, що порода є найкращим фактором для пояснення ваги собак.
Роман

1
"Найкраще" завантажується. Це потрапляє на територію поетапного вибору моделі, заснованої на p-значеннях, і це проблематично. Не читайте занадто багато мотиваційного прикладу. Найкраще в ньому - зображення поясненої дисперсії (нуль, мало, багато). Краще піти вниз і прочитати про те, як обчислюється статистика на основі сум квадратів, і пам’ятайте, що ці суми квадратів є лише оцінниками дисперсій. F
Стефан Коласа
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.