Діаграма QQ виглядає нормально, але тест Шапіро-Вілка говорить про інше


12

В R у мене є вибірка з 348 заходів, і я хочу знати, чи можу я вважати, що вона зазвичай розподіляється для майбутніх тестів.

По суті, після іншої відповіді стека , я дивлюся на графік щільності та графік QQ з:

plot(density(Clinical$cancer_age))

введіть тут опис зображення

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

введіть тут опис зображення

Я не маю сильного досвіду статистики, але вони виглядають як приклади нормальних розподілів, які я бачив.

Тоді я запускаю тест Шапіро-Вілка:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Якщо я правильно його інтерпретую, це говорить мені, що можна сміливо відкинути нульову гіпотезу, тобто розподіл є нормальним.

Однак я зіткнувся з двома повідомленнями в стеці ( тут і тут ), які сильно підривають корисність цього тесту. Схоже, якщо вибірка велика (чи 348 вважається великою?), Вона завжди скаже, що розподіл не є нормальним.

Як мені все це інтерпретувати? Чи слід дотримуватися QQ-сюжету і вважати, що мій розподіл є нормальним?


4
Графік qq, схоже, показує відхилення від норми в хвостах. Також будь-який корисний тест на придатність придатності відкине у дуже великих зразках просто тому, що виявляться невеликі відхилення від нормальності, які виявляються. Це не критика тесту Шапіро - Вілка, а скоріше особливість тестування на придатність.
Майкл Р. Черник

4
Чому для вас важливий нормальний розподіл? Що ви маєте намір зробити на основі цього припущення?
Роланд

6
На додаток до коментарів Роланда - багато тестів, які формально припускають нормальний розподіл, насправді досить надійні при незначних відхиленнях від нормальності (наприклад, тому, що розподіл тестової статистики асимптотично правильний). Якщо ви можете детальніше розповісти, що ви маєте намір зробити, ви можете отримати корисніші відповіді.
P.Windridge

1
@mdewey, різке спостереження! Це не вік захворюваності, а «вік» пухлини, вимірюваний метилюванням ДНК.
francoiskroll

2
Я думаю, що варто було б вивчити невелику кількість екстремальних спостережень, щоб просто перевірити, чи є помилками вимірювання.
mdewey

Відповіді:


11

Тут у вас немає проблем. Мої дані мої трохи ненормальні, але це досить нормально, щоб вони не створювали проблем. Багато дослідників роблять статистичні тести, припускаючи нормальність із значно меншими нормальними даними, ніж ті, що у вас є.

Я б довірив вашим очам. Діаграми щільності та QQ виглядають розумними, незважаючи на незначні позитивні перекоси на хвостах. На мою думку, вам не потрібно турбуватися про ненормальність цих даних.

У вас N близько 350, а значення p дуже залежать від розмірів вибірки. З великим зразком майже все може бути значним. Про це йшлося тут.

На цей дуже популярний пост є кілька неймовірних відповідей, які, в основному, приходять до висновку, що проведення тесту на значущість гіпотези щодо ненормативності "по суті марно". Прийнята відповідь на цій посаді - це чудова демонстрація того, що навіть коли дані були отримані в результаті майже гауссового процесу, досить високий розмір вибірки робить ненормальний тест значущим.


Вибачте, я зрозумів, що я пов’язаний із публікацією, про яку ви згадали у своєму первісному запитанні. Хоча мій висновок і досі існує: Ваші дані не настільки ненормальні, щоб це могло створювати проблеми.


Тільки тому, що деякі дослідники дуже неохайні, це не означає, що ти можеш бути трохи неохайним :). Однак я згоден з тим, що багато статистичних тестів, які формально припускають нормальність, насправді досить толерантні до того, чим годуєш
P.Windridge

2
"Тільки тому, що деякі. Дослідники дуже неохайні, не означає, що ви можете бути трохи неохайними :)" Справедливий пункт; це був поганий аргумент з мого боку. "Однак я згоден з тим, що багато статистичних тестів, які формально припускають нормальність, насправді є досить толерантними до того, чим ви їх годуєте". Так, справді. Будь-який квантовий професор переглянув такі сюжети QQ і сказав: "Так, це нормально".
Марк Білий

4

Ваш розподіл не є нормальним. Подивіться на хвости (або їх відсутність). Нижче наведено те, що можна було б очікувати від нормального QQ-сюжету.

введіть тут опис зображення

Дивіться цей пост про те, як інтерпретувати різні сюжети QQ.

Майте на увазі, що хоча розподіл технічно не може бути нормальним, він може бути достатньо нормальним для отримання алгоритмів, які вимагають нормальності.


1
Про що ти говориш, я провів 9 нормальних графіків qq зразки безпосередньо утворюють нормальний розподіл, використовуючи код set.seed (100) par (mfrow = c (3,3)) for (i in 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} і сюжет (3,2) виглядають дуже схоже на ситуацію в ОП.
Джош

1
Зазвичай ви не хочете зосереджуватися на хвостах, оскільки вони часто будуть дивними, хоча надзвичайно погані хвости дадуть вам погані результати. Вам дуже хочеться зосередитись на середині.
Джош

ти неправильний Джош. будь ласка, зверніться до звичайного тесту, щоб перевірити, чи відхилена нульова гіпотеза про нормальність.
відшкодування

1
Ти правий. Я спочатку прочитав вашу публікацію, оскільки сюжети qq були недостатньо нормальними, і прошу вибачення.
Джош

2
@ Джош, середина розподілу навряд чи має значення для тестів гіпотез; це важливі хвости. У вас це є назад.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.