На яке запитання відповідає ANOVA?

Я хочу навчитися ANOVA. Перш ніж я почати вивчати, як працює алгоритм (які обчислення потрібно робити) і чому він працює, я спершу хотів би дізнатися, яку проблему ми насправді вирішуємо за допомогою ANOVA, або на яку відповідь ми намагаємось відповісти. Іншими словами: Що таке вхід і що є результатом алгоритму?

Я розумію, що ми використовуємо як вхід. У нас є набір чисел. Кожне число має значення однієї або декількох категоричних змінних (також відомих як "фактори"). Наприклад:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

Чи правильно сказати, що ANOVA обчислює p-значення нульової гіпотези, яка говорить про відсутність впливу факторів на середнє значення? Іншими словами, подаємо наведені вище дані в алгоритм і в результаті отримуємо p-значення нульової гіпотези?

Якщо це так, то який захід ми насправді використовуємо для обчислення р-значення. Наприклад, можна сказати, що з огляду на нульову гіпотезу М може бути настільки ж високою, як спостережувана (або навіть вище) випадково в 1% випадків. Що таке М?

Чи ми також не досліджуємо фактори ANOVA окремо? Чи може ANOVA сказати, що фактор_1 має ефект, але фактор_2 ні? Чи може ANOVA сказати, що для заданих факторів значення, відповідні значенням "A", "B" і "C", статистично не відрізняються (мають однакове середнє значення, наприклад), але значення "D" має ефект?

anova

— Роман
джерело

ANOVA розшифровується як "Аналіз варіації". Він, як не дивно, аналізує дисперсію.

Будемо трохи чіткішими. Ваші спостереження виявлять певну дисперсію. Якщо групувати свої спостереження за фактором 1, дисперсія в групах, визначених фактором 1, буде меншою, ніж загальна дисперсія. Фактор 1 "пояснює дисперсію".

Однак цього недостатньо для того, щоб зробити висновок, що фактор 1 насправді має відношення до ваших спостережень ... тому що групування за будь-чим , що "пояснить" дисперсію. Хороша річ у тому, що ми знаємо, скільки дисперсії буде пояснено під нульовою гіпотезою, що ваш фактор насправді не має нічого спільного з вашими спостереженнями. Ця кількість дисперсії, що пояснюється під нуль, описується розподілом $F$

Таким чином, стратегія ANOVA полягає в оцінці загальної дисперсії та дисперсії в межах груп (використовуючи суми квадратів) та приймаючи співвідношення цих розрахункових дисперсій. Це співвідношення є статистикоюПотім ми порівнюємо цю статистику з критичною величиною розподілу в односторонньому тесті, отримуючи ваше значення. Кількість рівнів факторів переходить в один параметр розподілу (більше рівнів факторів пояснить більше дисперсії під нульовою гіпотезою), а кількість спостережень та кількість рівнів переходить в інший. Це попереднє питання може бути корисним. $F$ $F$ $F$ $p$ $F$

(Чому однобічний тест? Тому що, як вище, будь-яке групування пояснить певну дисперсію, тому має сенс лише перевірити, чи пояснює ваш коефіцієнт значно велику кількість дисперсії.)

У розділі "Мотиваційний приклад" запису у Вікіпедії є дуже приємні ілюстрації факторів, які пояснюють дуже мало, деякі та багато загальної дисперсії.

Двостороння ANOVA та взаємодія, як у вашому прикладі, а також ANCOVA - це лише узагальнення на цю тему. У кожному випадку ми досліджуємо, чи додавання якоїсь пояснювальної змінної пояснює значно велику кількість дисперсії.

Після того, як у нас є вагомий загальний тест на , ми можемо перевірити, чи спостереження певних рівнів факторів суттєво відрізняються від інших у пост-спеціальних тестах . Наприклад, D може відрізнятися від A, B і C, але вони можуть не сильно відрізнятися один від одного. Зазвичай для цього ви використовуєте тестів. Це попереднє питання може бути корисним, як і це . $F$ $t$

— Стефан Коласа
джерело

Отже, ми використовуємо все число для обчислення загальної дисперсії , потім обчислюємо відхилення для кожної групи і, нарешті, поєднуємо всі ці дисперсії (можливо, також із розмірами групи), щоб отримати "міру": . Тоді ми обчислюємо ймовірність того, що M буде такою ж великою, або навіть більшою, за умови, що нульова гіпотеза правильна.

V

$V$

v_{i}

$v_i$

M = M (V, v_{1}, v_{2}, . . ., v_{k}, n_{1}, n_{2}, . . ., n_{k})

$M = M (V, v_1, v_2, ..., v_k, n_1, n_2, ..., n_k)$

— Роман

Саме так. - ваша статистика. Ось фактична формула.

M

$M$

F

$F$

— Стефан Коласа

Якщо чесно, я все ще трохи розгублений. Наскільки я вас отримав, ANOVA повертає p-значення нульової гіпотези. Але з іншого боку, з "мотиваційного прикладу" з Вікіпедії можна зробити висновок, що ANOVA дає нам найкращий фактор (або поєднання факторів), що "пояснює" дані найкраще. Так, у прикладі ANOVA сказано, що порода є найкращим фактором для пояснення ваги собак.

— Роман

"Найкраще" завантажується. Це потрапляє на територію поетапного вибору моделі, заснованої на p-значеннях, і це проблематично. Не читайте занадто багато мотиваційного прикладу. Найкраще в ньому - зображення поясненої дисперсії (нуль, мало, багато). Краще піти вниз і прочитати про те, як обчислюється статистика на основі сум квадратів, і пам’ятайте, що ці суми квадратів є лише оцінниками дисперсій.

F

$F$

— Стефан Коласа