Нормальність припущення ANOVA / нормальний розподіл залишків


52

На сторінці Вікіпедії на ANOVA перелічено три припущення , а саме:

  • Незалежність випадків - це припущення про модель, яка спрощує статистичний аналіз.
  • Нормальність - розподіл залишків нормальний.
  • Рівність (або «однорідність») дисперсій, що називається гомоскедастичністю ...

Цікавим тут є друге припущення. Кілька джерел перераховують припущення по-різному. Деякі кажуть про нормальність необроблених даних, деякі заявляють про залишки.

З'являється кілька питань:

  • - це нормальність і нормальний розподіл залишків однієї і тієї ж людини (на основі запису у Вікіпедії, я б стверджував, що нормальність є властивістю, і вона не стосується залишків безпосередньо (але може бути власністю залишків (глибоко вкладений текст у дужках, химерний)))?
  • якщо ні, яке припущення має бути виконане? Один? Обидва?
  • якщо припущення нормально розподілених залишків є правильним, чи ми робимо серйозну помилку, перевіряючи лише гістограму вихідних значень на нормальність?

Ви можете майже ігнорувати будь-що інше з тих джерел, які говорять, якщо вони стверджують, що необроблені дані потрібно нормально поширювати. І хто сказав, що "ми", так чи інакше, перевіряємо нераціональні значення гістограмами. Ви перебуваєте в одному з цих шести класів Sigma ???
DWin

1
@Andy W: Я щойно додав посилання на те, що видається відповідним розділом статті Вікіпедії про ANOVA.
onestop

@DWin: blog.markanthonylawson.com/?p=296 (вибачте, зовсім поза темою, але не втримався)
onestop

@onestop дякую Я попросив посилання лише тому, що я лінивий і не хотів шукати ANOVA на wikipedia, не тому, що це важливо для питання.
Andy W

Відповіді:


35

Припустимо, це модель з фіксованими ефектами . (Порада насправді не змінюється для моделей з випадковими ефектами, вона стає трохи складнішою.)

  1. Ні, нормальність і нормальний розподіл залишків не однакові . Припустимо, ви виміряли урожайність врожаю із застосуванням добрив та без них. На ділянках без добрива врожайність становила від 70 до 130. На двох ділянках з добривом урожайність становила від 470 до 530. Розподіл результатів сильно ненормативний: він згрупований у двох місцях, пов’язаних із внесенням добрив. Припустимо, додатково середня врожайність становить відповідно 100 і 500. Тоді всі залишки коливаються від -30 до +30. Вони можуть (або не можуть) бути нормально розподіленими, але очевидно, що це зовсім інший розподіл.

  2. Розподіл залишків має значення , оскільки вони відображають випадкову частину моделі. Зауважимо також, що р-значення обчислюються із статистики F (або t) і залежать від залишків, а не від початкових значень.

  3. Якщо в даних є значні та важливі ефекти (як у цьому прикладі), можливо, ви можете зробити «серйозну» помилку . Ви можете, пощастило, зробити правильне визначення: тобто, переглянувши необроблені дані, ви будете збирати суміш розподілів, і це може виглядати нормально (чи ні). Справа в тому, що те, що ти шукаєш, не має значення.

Залишки ANOVA не повинні бути десь близькими до нормальних, щоб відповідати моделі. Однак майже нормальність залишків є важливою, щоб значення р, обчислені з розподілу F, були значимими.


6
Я думаю, що слід додати важливі моменти: у ANOVA нормальність у кожній групі (не в цілому) еквівалентна нормальності залишків.
Аніко

2
@Aniko Чи можете ви, будь ласка, детальніше пояснити, що ви маєте на увазі під "коментарем" під вашим коментарем? Практично тавтологічно, що нормальність у групі - це те саме, що нормальність залишків цієї групи, але помилково, що нормальність окремо в межах кожної групи передбачає (або мається на увазі) нормальність залишків.
whuber

7
Я справді мав на увазі тавтологічний сенс: якщо групи нормальні, то залишки в нормі. Зворотний факт справедливий лише в тому випадку, якщо додається гомосхеда (як у ANOVA). Я не хочу виступати за те, щоб перевірити групи замість залишків, але я вважаю, що це є основною причиною різного формулювання припущень.
Аніко

2
Я помітив, що люди, які роблять ANOVA, зазвичай здаються зацікавленими у обчисленні p-значень, і тому для них важлива нормальність залишків. Чи є якісь загальні причини, щоб відповідати моделі ANOVA, якщо нас не цікавить обчислення р-значень з F-розподілу? Вибачте, якщо це питання занадто широке для коментаря.
user1205901

3
@ user1205901 Це дуже хороший момент. Дві загальні методи використання ANOVA, які не покладаються на тест F, це: (1) це зручний спосіб отримати оцінки ефектів і (2) це частина і складова компонентів розрахунку дисперсії.
whuber

8

Стандартний класичний односторонній ANOVA можна розглядати як розширення до класичного "2-зразкового Т-тесту" до "n-зразка Т-тесту". Це видно з порівняння одностороннього ANOVA лише з двома групами з класичним 2-зразковим Т-тестом.

Я думаю, що ви заплутаєтесь у тому, що (за припущеннями моделі) залишки та необроблені дані ВІДПОВІДНО розподіляються. Однак необроблені дані складаються з звичайних розподілів з різними засобами (якщо всі ефекти абсолютно не однакові), але однакової дисперсії. Залишки, з іншого боку, мають однаковий нормальний розподіл . Це випливає з третього припущення гомоскедастичності.

Це відбувається тому, що нормальний розподіл розкладається на середні та дисперсійні компоненти. Якщо має нормальний розподіл із середнім а дисперсію можна записати як де має стандартний нормальний розподіл. μ j σ 2 Y i j = μ j + σ ϵ i j ϵ i jYijμjσ2Yij=μj+σϵijϵij

Хоча ANOVA є похідним від припущення про нормальність, я думаю (але не впевнений), його можна замінити припущенням про лінійність (уздовж ліній оцінки " Найкращий лінійний об'єктивний оцінювач" ), де "BEST" інтерпретується як мінімальний середній квадрат помилка). Я вважаю , що це в основному включає в себе заміну розподілу для з будь-яким взаємно незалежним розподілом (за всіма я і J ) , який має в увазі 0 і дисперсією 1.ϵij

Що стосується перегляду ваших необроблених даних, то це повинно виглядати нормально, якщо їх планувати окремо для кожного рівня фактору у вашій моделі . Це означає побудувати для кожного j на окремому графіку.Yij


1
+1 для вказівки (в останньому абзаці) припущення про гомоскедастичність.
whuber

Чи означає це, що якщо ми дозволимо сказати n залежним групам для порівняння, нам потрібно перевірити їх залишки окремо (в результаті чого n груп залишків)?
stan

5

У односторонньому випадку з групами розміру : деn j F = S S b / d f bpnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2 і

SSw=j=1pi=1nj(yijMj)2

F слідує за -розподілом, якщо і є незалежними, -розподілені змінні зі і градусами свобода, відповідно. Це той випадок, коли і є сумою квадратних незалежних нормальних змінних із середнім значенням та рівним масштабом. Таким чином, і повинні бути нормально розподілені.FSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

yi(j)Mj - залишок від повної моделі ( ), є залишком з обмеженої моделі ( ). Різниця цих залишків становить .Y=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

EDIT для відображення роз'яснення @onestop: під всі справжні засоби групи рівні (і, таким чином, рівні ), таким чином, нормальність залишків на рівні групи передбачає нормальність . Значення DV самих не потрібно нормально розподіляти.H0Myi(j)MjMMj


2
Припущення про те , що ці є -distributed при нульовій гіпотезі , яка є те , що кошти групи усі рівні, тобто для всіх . У цьому випадку є нормальним, є нормальним. Тож вам потрібно лише перевірити перше, тобто, що залишки рівня спостереження є нормальними. χ 2 M j = M j y i j - M j M j - MSSχ2Mj=MjyijMjMjM
onestop

@onestop Відредаговано, щоб відобразити ваше уточнення, дякую!
каракал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.