Що слід перевірити на предмет нормальності: вихідні дані чи залишки?


27

Я дізнався, що я повинен перевірити нормальність не на вихідних даних, а на їх залишки. Чи слід обчислювати залишки, а потім робити W тест Шапіро – Вілка?

Чи обчислюються залишки як: ?Хi-маю на увазі

Будь ласка, дивіться це попереднє питання щодо моїх даних та дизайну.


Ви робите це за допомогою програмного забезпечення (і якщо так, то яке програмне забезпечення) чи ви намагаєтеся робити розрахунки вручну?
Кріс Сімокат

@Chris Simokat: Я намагаюся зробити це з R та Statistica ...
stan

3
Це питання може зацікавити: що - якщо - залишки - як правило, розподіляються - але - у - - це - ні ; він також охоплює питання про те, чи вимагається нормальність вихідних даних або залишків.
gung - Відновіть Моніку

1
Вибачте, я недостатньо кмітливий, не знаючи, як зробити це автоматично в різних ситуаціях. Однак, коли ви запускаєте регресію, ви повинні бути в змозі зберегти залишки у вихідному наборі даних, і потім можна зробити qq-графік.
gung - Відновіть Моніку

1
Хороша інформація Карен Грейс-Мартін: це і це
стан

Відповіді:


37

Чому потрібно перевіряти нормальність?

Стандартне припущення в лінійній регресії полягає в тому, що теоретичні залишки незалежні і нормально розподілені. Спостережувані залишки є оцінкою теоретичних залишків, але не є незалежними (є перетворення на залишки, які усувають частину залежності, але все ж дають лише наближення справжніх залишків). Тож тест на спостережуваних залишків не гарантує, що теоретичні залишки відповідають.

Якщо теоретичні залишки точно не розподілені нормально, але розмір вибірки досить великий, то теорема центрального граничного значення говорить, що звичайні умовиводи (тести та інтервали довіри, але не обов'язково інтервали прогнозування), засновані на припущенні про нормальність, все ще будуть приблизно правильними .

Також зауважте, що тести на нормальність виключають тести, вони можуть вам сказати, що дані навряд чи надійдуть із звичайного розподілу. Але якщо тест не суттєвий, це не означає, що дані надійшли від нормального розподілу, це також може означати, що у вас просто не вистачає енергії, щоб побачити різницю. Більші розміри вибірки дають більше можливостей виявити ненормальність, але більші вибірки та CLT означають, що ненормальність є найменш важливою. Отже, для малих розмірів вибірки важливе припущення про нормальність, але тести є безглуздими, для великих розмірів вибірки тести можуть бути більш точними, але питання точної нормальності стає безглуздим.

Отже, поєднуючи все вищезазначене, важливіше, ніж тест на точну нормальність, - це розуміння науки, що стоїть за даними, щоб побачити, чи достатньо близько до норми населення. Такі графіки, як qqplots, можуть бути хорошою діагностикою, але розуміння науки також потрібне. Якщо виникає занепокоєння з приводу занадто великої косості або потенціалу для людей, що вижили, існують непараметричні методи, які не потребують припущення про нормальність.


6
Щоб відповісти на питання на першому рядку: Орієнтовна нормальність має вирішальне значення для застосування F-тестів в ANOVA та створення меж довіри навколо відхилень. (+1) за хороші ідеї.
whuber

4
@whuber, так, приблизна нормальність є важливою, але тести перевіряють точну нормальність, а не приблизну. А для великих розмірів вибірки приблизні розміри не повинні бути дуже близькими (де тести, швидше за все, відхиляються). Хороший сюжет та знання науки, яка дала дані, набагато корисніші, ніж формальний тест на нормальність, якщо ви виправдовуєте використання F-тестів (або іншого нормального висновку на основі).
Грег Сніг

Грег, гаразд Я роблю підгонку дистрибутива і бачу, що мої дані походять з бета-версії чи гамми-дистрибуції, і що мені робити тоді? АНОВА, яка передбачає закон Гаусса?
stan

2
(+1) Це пішло добре, крім кінця. Вам не доведеться вибирати між (а) регресією на основі припущення про нормальність та (b) непараметричними процедурами. Трансформації перед регресією та / або узагальненими лінійними моделями - лише дві основні альтернативи. Я усвідомлюю, що ви не намагаєтесь тут узагальнити все про статистичне моделювання, але остання частина може бути дещо посилена.
Нік Кокс

Отже, врешті-решт, за лінійною регресією ми повинні перевірити нормальність вихідних даних або нормальність залишків?
vasili111

7

Гауссові припущення посилаються на залишки моделі. Немає припущень, необхідних щодо вихідних даних. Як приклад, розподіл щоденних продажів пива. введіть тут опис зображенняПісля розумної моделі відображаються ефекти денного тижня, свят / подій, зрушення рівня / тенденції часувведіть тут опис зображення


Дякуємо за Ваш відповідь. Ви хочете сказати, що ми можемо перетворити наші дані в гауссовий розподіл ...?
stan

3
Стен, роль моделювання полягає в тому, щоб зробити саме так, щоб зробити висновок і перевірити гіпотезу.
IrishStat

6

По-перше, ви можете "очне яблуко", використовуючи QQ-сюжет, щоб отримати загальний сенс, ось як генерувати його в Р.

Відповідно до посібника R, ви можете передавати вектор даних безпосередньо у функцію shapiro.test ().

Якщо ви хочете обчислити залишки самостійно, так кожен залишок обчислюється таким чином, ніж ваш набір спостережень. Більше про це ви можете подивитися тут .


Отже, наскільки я зрозумів, методи для нормальності насправді перевіряють нормальність залишків наших вихідних даних. Вони роблять це автоматично, і ми не повинні обчислювати залишки та піддавати їх тестуванню. І в повсякденному мовленні ми зазвичай переходимо на "мої дані звичайно розподіляються", вважаючи, що залишки моїх даних є "нормальними". Будь ласка, виправ мене.
квартира

6
Я не згоден з вашим останнім моментом. Люди, які кажуть, що мої дані зазвичай поширюються, зазвичай не посилаються на залишки. Я думаю, що люди кажуть, що тому, що вони вважають, що кожна статистична процедура вимагає, щоб усі дані були нормальними.
Глен

@Glen відверто кажучи, я (помилково) вважаю те саме до цих пір ... я не можу зрозуміти (це моя проблема), якщо у мене є гамма або бета-версія або що-небудь розповсюджені дані, я повинен робити статистику для них такою ж, як вони зазвичай поширюється, незважаючи на їх справжнє / природне поширення? А факт розподілу лише для вказівки? Я знав лише розповсюдження Гаусса перед цим сайтом ...
stan
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.