Нормальність залежної змінної = нормальність залишків?


34

Це питання, здається, весь час отакує свою некрасиву голову, і я намагаюся обезголовити це для мого власного розуміння статистики (і розуму!).

Припущення загальних лінійних моделей (t-тест, ANOVA, регресія тощо) включають "припущення про нормальність", але я вважаю, що це рідко описано чітко.

Я часто натрапляю на підручники / посібники зі статистики / тощо, просто кажу, що "припущення про нормальність" застосовується до кожної групи (тобто категоричних змінних X), і ми повинні вивчати відступи від нормальності для кожної групи .

Запитання :

  1. чи припущення стосується значень Y або залишків Y?

  2. для певної групи , чи можливо сильно ненормальний розподіл значень Y (наприклад, перекошений), АЛЕ приблизно (або принаймні більш нормальний) розподіл залишків Y?

    Інші джерела описують, що припущення стосується залишків моделі (у випадках, коли є групи, наприклад, t-тести / ANOVA), і ми повинні вивчати відхилення нормальності цих залишків (тобто, лише один графік QQ / тест для бігати).

  3. чи означає нормальність залишків для моделі нормальність залишків для груп ? Іншими словами, чи варто просто вивчити залишки моделі (всупереч інструкціям у багатьох текстах)?

    Щоб поставити це в контексті, розглянемо цей гіпотетичний приклад:

    • Я хочу порівняти висоту дерева (Y) між двома популяціями (X).
    • У однієї популяції розподіл Y сильно косий (тобто більшість дерев короткі, дуже високі), а в іншої - практично нормально
    • Висота в цілому середньорозподіленої сукупності більша (припускаючи, що може бути "реальна" різниця).
    • Трансформація даних суттєво не покращує розподіл першої сукупності.
  4. По-перше, чи справедливо порівнювати групи з урахуванням кардинально різних розподілів висоти?

  5. Як я тут підходжу до "припущення про нормальність"? Нагадаємо, висота в одній популяції зазвичай не розподілена. Чи слід розглядати залишки для обох груп населення окремо АБО залишки для моделі (t-тест)?


Будь ласка, зверніться до запитань за номерами у відповідях. Досвід показав, що люди легко губляться або перебувають у дорозі (особливо я!). Майте на увазі, що я не статистик; хоча у мене є досить концептуальне (тобто не технічне!) розуміння статистики.

PS, я здійснив пошук в архівах і прочитав наступні теми, які не зміцнили моє розуміння:


2
" Питання 1) чи припущення стосується значень Y або залишків Y? " - Строго кажучи, жодне , хоча друге - це те, що ви перевіряєте . Прийнятним вважається або непомітні помилки , або еквівалентно умовний розподіл Y при кожній комбінації предикторів. Безумовний розподіл Y не вважається нормальним.
Glen_b -Встановіть Моніку

1
+1 Дякуємо, що доклали зусиль для організації та консолідації деяких (багатьох) тем, у яких виникає ця проблема; це, безумовно, FAQ.
whuber

Я просто хотів би подякувати вам за це питання. Як за темою, якою вона займається, так і наскільки вона добре організована та пов'язана. Я знаю, що ви це давно задавали, але це дуже гарне запитання!
хмммм

Відповіді:


14

Один момент, який може допомогти вам зрозуміти:

Якщо звичайно розподілено, а a і b - константи, то y = x - axab також зазвичай розподіляється (але, можливо, відрізняється середнім значенням та дисперсією).y=xab

Оскільки залишки - це лише значення y мінус розрахункове середнє значення (стандартизовані залишки поділяються також за оцінкою стандартної помилки), то якщо значення y зазвичай розподіляються, то залишки також є і навпаки. Отже, коли ми говоримо про теорію чи припущення, не важливо, про що ми говоримо, тому що одне має на увазі інше.

Тож для запитань це призводить до:

  1. так, і те, і інше
  2. Ні, (однак, окремі значення y походять від нормальних з різними засобами, що може зробити їх виглядом ненормальним, якщо їх об'єднати разом)
  3. Нормальність залишків означає нормальність груп, однак у деяких випадках може бути добре вивчити залишки або значення y за групами (об'єднання може затьмарити ненормальність, що очевидно в групі) або переглядати всіх разом у інших випадках (недостатньо спостережень на групу, щоб визначити, але все разом ви можете сказати).
  4. Це залежить від того, що ви маєте на увазі під порівнянням, наскільки великий розмір вибірки та ваші почуття щодо "Приблизного". Припущення про нормальність потрібне лише для тестів / інтервалів за результатами, ви можете відповідати моделі та описати точкові оцінки, є нормальність чи ні. Центральна гранична теорема говорить, що якщо розмір вибірки буде досить великим, то оцінки будуть приблизно нормальними, навіть якщо залишки не є.
  5. Це залежить від того, на яке запитання ви намагаєтесь відповісти і наскільки "наближеними" ви задоволені.

Іншим моментом, який важливо зрозуміти (але часто пов'язаний з навчанням), є те, що тут є два типи залишків: теоретичні залишки, які є різницею між спостережуваними значеннями та справжньою теоретичною моделлю, і спостережувані залишки, які є різницями між спостережуваними величинами та оцінками з поточно встановленої моделі. Ми припускаємо, що теоретичні залишки є нормальними. Спостережувані залишки не є i, i або розподілені нормально (але мають середнє значення 0). Однак для практичних цілей спостережувані залишки оцінюють теоретичні залишки і тому все ще корисні для діагностики.


Для отримання додаткової інформації про помилки та залишки, я вважаю, що корисно прочитати цю статтю на wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster

1
yy^

yy^

Щодо питання Q1 (який є наче відомим у відповіді на Q2): Очевидно, що це залишки, а не Ys. Коли коваріати відрізняються між спостереженнями, ви можете легко мати бімодальний граничний розподіл, навіть якщо залишки є нормальними. Отже, не можна просто дивитися на Ys, лише на залишки.
Бьорн

@Bjorn, це хороше уточнення. Змінні y є нормальними, умовними для x, тому необроблені y-значення є сумішшю нормалей, а графік якраз y-значень може не показувати нормальності, хоча вони відповідають припущенню, що вони є нормальними. Для діагностики ми зазвичай використовуємо залишки (оскільки умовна частина в основному була видалена). Припущення про (умовну) нормальність стосується як теоретичних залишків, так і значень у.
Грег Сніг

7

Короткі відповіді:

  1. залишки
  2. ні
  3. залежить, обидва підходи мають переваги та недоліки
  4. чому ні? Може бути більше сенсу порівнювати медіанів замість засобів.
  5. з того, що ви нам сказали, припущення про нормальність, ймовірно, порушено

Більш довга відповідь:

Припущення полягає в тому, що залежна змінна (y) зазвичай розподіляється, але з різними засобами для різних груп. Як наслідок, якщо ви побудуєте просто розподіл y, це може легко виглядати дуже відмінно від вашої стандартної звичайної кривої дзвіночки. Залишки представляють розподіл y з тими відмінностями в засобах "відфільтрований".

Крім того, ви можете подивитися на розподіл y у кожній групі окремо. Це також викреслює відмінності в засобах по групах. Перевага полягає в тому, що таким чином ви також отримуєте інформацію про розподіл у кожній групі, що у вашому випадку здається актуальним. Недоліком є ​​те, що кожна група містить менше спостережень, ніж комбінований набір даних, який ви отримаєте, переглядаючи залишки. Більше того, ви б не змогли змістовно порівняти групи, якщо у вас багато груп, наприклад, тому що ви ввели багато змінних предиктора у вашу модель або (квазі-) безперервну змінну предиктора для вашої моделі. Отже, якщо ваша модель складається лише з однієї категоріальної змінної предиктора, а кількість спостережень у кожній групі достатньо велика, то може бути доцільним перевірити розподіл y у кожній групі окремо.


7
Суворо, залишки - це лише оцінки невідомих та невідомих помилок чи порушень, тому навіть якщо нормальність в принципі правильна, ви не можете отримати абсолютно нормальних залишків на практиці. Що ще важливіше, нормальність помилок є найменш важливим припущенням у цих методах!
Нік Кокс

@NickCox (+1) домовився про обидва підрахунки
Maarten Buis

1

YХ
ХY


еYϵХ
YY|Х-N(Хβ,σ2)
ХYY|Х


YХ

Питання 3)
Важливим для використання лінійних моделей, що вимагають нормальності, є те, що залишки, які не є нормальними, в цілому це в групі чи ні, є важливим показником того, що модель може не відповідати вашим даним.
Якщо ви робите ANOVA, то, звичайно, ваші залишки не повинні бути нормальними (а точніше гомоскедастичними), це не має сенсу. В регресії, однак, вам краще мати модель з кінцевими частинами із загальними нормальними залишками. Якщо ні, ваші оцінювачі інтервалів і тести будуть помилковими. Це може бути випадок певних автокореляцій або відсутність зміщених змінних змін. Якщо модель стовідсотково правильна (включаючи, можливо, структурні перерви та зважування, якщо це необхідно), далеко не припустимо прийняти нормальні умови помилки, навіть зосереджені близько 0. Практично часто виникає питання: чи можемо ми відійти від цих речей, якщо зразок досить великий? Однозначної відповіді немає, але для 100% правильного підходу так, всі залишки повинні бути нормальними.

Питання 4 і 5)
Це залежить від того, що ви маєте на увазі, порівнюючи. Враховуючи припущення про нормальні терміни помилки, ви можете протестувати на основі припущення про два різні розподіли. Ви також можете використовувати оцінку GLS для регресії, щоб врахувати різні параметри розподілу - якщо у вас є правильна модель ... і я здогадуюсь, що ваші групи працюють як індикатор / двійкова змінна?
Тоді, мабуть, буде дуже важко міркувати, що розподіл залишків буде нормальним - наслідком є ​​те, що, хоча ви зможете робити інформацію зі своїми даними, це не буде на основі звичайних OLS.
Але це залежить від того, що ви хочете зробити з даними.

Важливо, однак: Ви все одно не обійдете припущення про використовувану лінійну модель. Ви можете зробити проблеми краще, якщо взяти асимптотичні властивості великого зразка, але якщо я здогадуюсь, оскільки ви просите остаточну відповідь, це не те, що ви маєте на увазі.
У випадку вашого прикладу, якщо у вас є дані, які можуть пояснити перекос, ви відновите нормальність у своїх залишках і вY|Х

Я думаю, що хорошим підходом було б вивчити алгебру регулярних OLS з акцентом на отримані розподіли.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.