Які тести я використовую для підтвердження того, що залишки нормально розподіляються?


20

У мене є деякі дані, які виглядають із побудови графіка залишків проти часу майже нормальним, але я хочу бути впевненим. Як я можу перевірити нормальність залишків помилок?


3
Тісно пов'язані: відповідні-нормальність-тести-для малих зразків . Ось кілька інших можливих питань: це - тестування на нормальність - по суті, марне , для обговорення значення тестування на нормальність, і що - якщо - залишки - як правило, розподіляються, але - так - ні , для обговорення / уточнення сенсу, в якому нормальність є припущенням лінійної моделі.
gung - Відновіть Моніку

Тут можна побачити дуже поширене неправильне розуміння суті тесту Шапіро Вілка! Правильне значення на користь H0 полягає в тому, що H0 не можна відкинути, але БУДЬТЕ! Це автоматично не означає "дані нормально поширюються" !!! Альтернативний результат - "Дані зазвичай не поширюються".
Джо Хелленбек

Відповіді:


28
  1. Жоден тест не скаже, що ваші залишки зазвичай розподіляються. Насправді ви можете надійно зробити ставку, що їх немає .

  2. Перевірки гіпотез зазвичай не є гарною ідеєю, оскільки перевірка ваших припущень. Ефект ненормальності на ваших умовиводах зазвичай не залежить від розміру вибірки *, але результат тесту значущості є . Невелике відхилення від нормальності буде очевидним при великому розмірі вибірки, навіть якщо відповідь на питання про фактичний інтерес ("якою мірою це вплинуло на моє висновок?") Може бути "навряд чи взагалі". Відповідно, велике відхилення від нормальності при невеликому розмірі вибірки може не наближатися до значущості.

    * (додано в редагуванні) - насправді це занадто слабке твердження. Вплив ненормальності насправді зменшується з розміром вибірки в будь-який час, коли ця теорема CLT та Слуцького буде дотримана, тоді як здатність відкидати нормальність (і, мабуть, уникати нормально-теоретичних процедур) збільшується з розміром вибірки ... так просто коли ви найбільш здатні ідентифікувати ненормальність , як правило, коли він не має значення , в будь-якому випадку ... і тест не допоможе , коли він на самому справі має значення, в невеликих зразках.

    добре, принаймні, на рівень значущості. Потужність все ще може бути проблемою, хоча якщо ми розглянемо великі зразки, як тут, це може бути менше питання.

  3. Що наближається до вимірювання розміру ефекту - це деяка діагностика (або дисплей, або статистика), яка певним чином вимірює ступінь ненормативності. Діаграма QQ є очевидним відображенням, а графік QQ з однієї сукупності при одному розмірі вибірки та різному розмірі вибірки є щонайменше обома галасливими оцінками однієї кривої - показуючи приблизно однакову «ненормальність»; вона повинна, принаймні, приблизно бути монотонно пов'язаною з бажаною відповіддю на питання, що цікавить.

Якщо вам потрібно скористатися тестом, Шапіро-Вілк, мабуть, приблизно такий же хороший, як і все інше (тест Чен-Шапіро, як правило, трохи кращий за альтернативами, що представляють спільний інтерес, але складніше знайти варіанти реалізації) - але це відповідь на питання, яке ви вже знаю відповідь на; кожного разу, коли ви не відмовляєтесь, це дає відповідь, ви можете бути впевнені, що це неправильно.


4
+1 Glen_b, тому що ти робиш кілька хороших балів. Однак я не був би таким негативним щодо використання корисних тестів на придатність. Коли розмір вибірки невеликий або помірний, тест не матиме достатньої потужності для виявлення незначних відхилень від нормального розподілу. Дуже великі відмінності можуть призвести до дуже малих p-значень (наприклад, 0,0001 або нижче). Це можуть бути більш офіційні ознаки, ніж візуальне спостереження qq-сюжету, але все-таки дуже корисні. Можна також переглянути оцінки косості та куртозу. Саме в дуже великих зразках корисність тестів на придатність є проблематичною.
Майкл Р. Черник

4
У цих випадках виявляться невеликі відхилення. Поки аналітик визнає, що на практиці розподіл населення не буде абсолютно нормальним, а відхилення нульового гіпіотизу просто говорить йому про те, що його розподіл трохи ненормальний, він не збиється з глузду. Потім слідчий повинен судити про те, чи є припущення про нормальність викликає занепокоєння чи не враховуючи незначний відхід, який виявляє тест. Шапіро-Вілк - це насправді один із найпотужніших випробувань проти гіпотези про нормальність.
Майкл Р. Черник

+1, мені особливо подобається точка №2; З цього приводу варто зауважити, що навіть якщо перекос або куртоз досить поганий, з / по-справжньому великим N, теорема про центральну межу буде охоплювати вас, тож саме цей час ви найменше потребуєте нормальності.
gung - Відновіть Моніку

3
@gung Є деякі обставини, коли хороше наближення до нормальності буде мати значення. Наприклад, при побудові інтервалів прогнозування з використанням звичайних припущень. Але я все одно буду більше покладатися на діагностику (та, яка показує, наскільки це не нормально), ніж тест
Glen_b -Встановити Моніку

Ваша думка щодо інтервалів прогнозування є хорошою.
gung - Відновіть Моніку

8

Тест Шапіро-Вілка - одна з можливостей.

Тест Шапіро-Вілка

Цей тест реалізований майже у всіх статистичних пакетах програм. Нульова гіпотеза - залишки звичайно розподіляються, тому невелике p-значення вказує на те, що слід відхилити нуль і зробити висновок, що залишки зазвичай не розподіляються.

Зауважте, що якщо розмір вибірки великий, ви майже завжди будете відхилятись, тому більш важливою є візуалізація залишків.


Це "Wilk", а не "Wilks".
Майкл Р. Черник

1

З Вікіпедії:

Тести універсальної нормальності включають тест К-квадрата Д'Агостіно, тест Жарк-Бера, тест Андерсона-Дарлінга, критерій Крамера – фон Мізеса, тест Лілліфорса на нормальність (сам адаптація тесту Колмогорова – Смірнова), Тест Шапіро – Вілк, тест Хі-квадрат Пірсона і тест Шапіро – Франція. Доклад у журналі "Журнал статистичного моделювання та аналітики" [1] приходить до висновку, що Шапіро-Вілк має найкращу силу для даної значущості, за якою уважно слідкує Андерсон-Дарлінг при порівнянні Шапіро-Вілка, Колмогорова-Смірнова, Лілліфорса та Андерсона- Тести для коханих.


1
-1: Ви можете включити посилання на сторінку Вікіпедії, видалити виноску ("[1]") та скористатися функцією блокування цитат.
Бернд Вайс

1
Застереження, яке дає Glen_b, важливо мати на увазі, коли використовується будь-який із цих корисних тестів на придатність. Я думаю, що результат, про який ви говорите про Шапіро-Вілк, не такий загальний, як ви це робите. Я не вірю, що існує глобально найпотужніший тест на нормальність.
Майкл Р. Черник

2
н1

@GregSnow У мене немає часу, щоб уважно ознайомитися з вашим пакетом, і я, можливо, недостатньо досвідчений з R, щоб слідкувати за усім. Ви говорите про те, що існує найпотужніший тест на нормальність у світі або ви говорите, що ви наводите приклади, щоб показати, коли різні тести є найпотужнішими, а отже, що глобального не існує. У мене є сумніви, що таке існує, і я не думаю, що Шапіро-Вілк був би таким. Якщо ви заявляєте, що така існує, я хотів би побачити математичний доказ або посилання на таке.
Майкл Р. Черник

1
@MichaelChernick, моє твердження полягає в тому, що мій тест матиме стільки ж потужностей або більше (буде таким, чи більше шансів відхилити нульову гіпотезу даних, що надходять із точної норми), як і будь-який інший тест на нормальність. Код R не важко дотримуватися, основний код для обчислення р-значення - "tmp.p <- якщо (будь-який (є.раціональний (x)))) {0", доказ його потужності повинен бути очевидним ( Я лише стверджував, що він є потужним і документація може бути корисною, а не тест сам корисний, google для "афоризму Кокрана").
Грег Сног
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.