Я вперше зіткнувся з ANOVA, коли був студентом магістра в Оксфорді в 1978 році. Сучасні підходи, навчаючи безперервних і категоричних змінних разом у моделі множинної регресії, ускладнюють молодим статистикам розуміння того, що відбувається. Тож може бути корисно повернутися до більш простих часів.
У своєму первісному вигляді ANOVA - вправа з арифметики, за допомогою якої ви розбиваєте загальну суму квадратів на шматки, пов'язані з лікуванням, блоками, взаємодіями, будь-яким іншим. У збалансованій обстановці суми квадратів з інтуїтивним значенням (наприклад, SSB і SST) складають до скоригованої загальної суми квадратів. Все це працює завдяки теоремі Кокрана . Використовуючи Cochran, ви можете розробити очікувані значення цих термінів у звичайних нульових гіпотезах, і звідти надходить статистика F.
Як бонус, коли ви починаєте замислюватися про Кохран і суми квадратів, має сенс продовжувати нарізати і диктувати ваші лікувальні суми квадратів, використовуючи ортогональні контрасти. Кожен запис у таблиці ANOVA повинен мати інтерпретацію, що цікавить статистику, і давати перевірену гіпотезу.
Нещодавно я написав відповідь, де виникла різниця між методами MOM та ML. Питання стосувалося оцінки моделей випадкових ефектів. На даний момент традиційний підхід ANOVA повністю розділяє компанію з максимальною оцінкою ймовірності, і оцінки наслідків вже не однакові. Якщо дизайн не врівноважений, ви також не отримуєте однакових статистичних даних F.
Ще в той день, коли статистики хотіли обчислити випадкові ефекти від розщеплення або повторних проектів вимірювань, відхилення випадкових ефектів було обчислено із середніх квадратів таблиці ANOVA. Отже, якщо у вас є ділянка з дисперсією а залишкова дисперсія - , можливо, у вас з'явиться очікуване значення середнього квадрату ("очікуваний середній квадрат", EMS) , з числом розщеплень на . Ви встановите середній квадрат, рівний його очікуванню, і вирішите для σ 2 σ 2 + n σ 2 p n ^ σ 2 bσ2pσ2σ2+ n σ2pнσ2b^. ANOVA дає метод оцінки моментів для дисперсії випадкових ефектів. Зараз ми схильні вирішувати подібні проблеми за допомогою моделей зі змішаними ефектами, і компоненти дисперсії отримують за допомогою максимальної оцінки ймовірності або REML.
ANOVA як така не є методом моменту процедури. Він перетворюється на розбиття суми квадратів (або, загалом, квадратичної форми відповіді) на компоненти, які дають змістовні гіпотези. Це сильно залежить від нормальності, оскільки ми хочемо, щоб суми квадратів мали розподіли чі-квадратів для роботи тестів на F.
Рамка максимальної ймовірності є більш загальною і стосується ситуацій, таких як узагальнені лінійні моделі, де суми квадратів не застосовуються. Деяке програмне забезпечення (наприклад, R) викликає плутанину, визначаючи методи anova до тестів співвідношення ймовірності з асимптотичними розподілами чи-квадрата. Можна виправдати використання терміна "anova", але строго кажучи, теорія, що стоїть за ним, інша.