Інтерпретація тесту Шапіро-Вілка


29

Я досить новачок у статистиці, і мені потрібна ваша допомога.
У мене невеликий зразок:

  H4U
  0.269
  0.357
  0.2
  0.221
  0.275
  0.277
  0.253
  0.127
  0.246

Я провів тест Шапіро-Вілка за допомогою R:

shapiro.test(precisionH4U$H4U)

і я отримав такий результат:

 W = 0.9502, p-value = 0.6921

Тепер, якщо я припускаю, що рівень значущості на 0,05, ніж значення p більше, ніж альфа (0,6921> 0,05), і я не можу відкинути нульову гіпотезу про нормальний розподіл, але чи дозволяє це мені сказати, що зразок має нормальний розподіл ?

Спасибі!

Відповіді:


28

Ні - ви не можете сказати, що "вибірка має нормальний розподіл" або "вибірка походить з популяції, яка має нормальний розподіл", але лише "ви не можете відкинути гіпотезу про те, що вибірка походить з популяції, яка має нормальний розподіл".

Насправді вибірка не має нормального розподілу (див. Qqplot нижче), але ви не очікували цього, оскільки це лише зразок. Питання щодо розподілу основного населення залишається відкритим.

qqnorm( c(0.269, 0.357, 0.2, 0.221, 0.275, 0.277, 0.253, 0.127, 0.246) )

qqplot


2
qqplot виглядає як нормально, я думаю ... ви можете спробувати qqnorm(rnorm(9))кілька разів ...
Цікаво,

2
@Tomas: Можливо, краще сказати, "qqplot виглядає так, ніби він міг походити з нормальної сукупності". Натомість це могло б вийти з дистрибуції з більш важкими хвостами.
Генрі

Так, qqnorm(runif(9))може дати подібний результат. Тож ми нічого не можемо сказати ...
цікаво

яка різниця між "вибіркою є нормальний розподіл" та "вибіркою походить від популяції, яка має нормальний розподіл"?
аурахам

1
Нормальний розподіл - це безперервний розподіл по всіх реалах. Зразок (скінченний або навіть незліченний нескінченний) сам по собі не може такого типу розподілу, навіть якщо він отриманий з популяції, яка має таке розподіл.
Генрі

17

Якщо не відхилити нульову гіпотезу, то це є свідченням того, що у вас вибірка занадто мала, щоб відібрати будь-які відхилення від нормальності, але у вас вибірка настільки мала, що навіть досить істотні відхилення від нормальності, ймовірно, не будуть виявлені.

Однак тест гіпотези в значній мірі не суперечить тому, що люди використовують тест на нормальність - ви фактично знаєте відповідь на тестувальне запитання - розподіл сукупності за вашими даними не буде нормальним . (Це може бути досить близько, але насправді нормально?)

Питання, яке вам слід хвилювати, не полягає в тому, «це розподіл, який вони отримують від звичайного» (це не буде). Питання, яке вас насправді має хвилювати, більше нагадує: «чи відхилення від нормальності я маю істотний вплив на мої результати?». Якщо це потенційно є проблемою, ви можете розглянути аналіз, який менш імовірно матиме цю проблему.


10

t

tt

Далі я припускаю, що ви дивитеся на пропорції, і в цьому випадку ви можете використовувати біноміальний розподіл, якщо вас турбують порушення припущень.

Якщо вас змусили тести Шапіро, то можете проігнорувати все, що я щойно сказав.


Ви правильно зрозуміли, я хотів знати, чи можу я використати t тест для мого зразка. Спасибі!
Якуб

4

Як Генрі вже сказав, ви не можете сказати, що це нормально. Просто спробуйте виконати таку команду кілька разів у R:

shapiro.test(runif(9)) 

Це дозволить перевірити вибірку з 9 чисел з рівномірного розподілу. Багато разів р-значення буде набагато більше 0,05 - це означає, що ви не можете зробити висновок, що розподіл є нормальним.


4

Я також дивився на те, як правильно інтерпретувати значення W в тесті Шапіро- Вілка, і згідно зі статтею Еміля О. В. Кіркегора " Значення W із тесту Шапіро-Вілка, візуалізовані з різними наборами даних ", дуже важко сказати що-небудь про нормальність розподіл, дивлячись лише на значення W.

Як він говорить у висновку:

Як правило, ми бачимо, що, враховуючи великий вибірки, СВ чутливий до відхилень від ненормативності. Якщо виїзд дуже малий, це не дуже важливо.

Ми також бачимо, що важко зменшити значення W, навіть якщо навмисно намагатися. Потрібно перевірити надзвичайно ненормований розподіл, щоб помітно впасти нижче .99.

Дивіться оригінальну статтю для отримання додаткової інформації.


1

Одне важливе питання, про яке не згадували попередні відповіді, - це обмеження тесту:

Тест має обмеження, головне, щоб тест мав зміщення за розміром вибірки . Чим більша кількість вибірки, тим більше шансів отримати статистично значимий результат.

Щоб відповісти на початковий запитання (дуже невеликий розмір вибірки): див. Наступні статті про кращі альтернативи, такі як графік QQ та гістограма для цього конкретного випадку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.