Тестування великого набору даних на предмет нормальності - наскільки і чи надійно це?


12

Я вивчаю частину мого набору даних, що містить 46840 подвійних значень, розміром від 1 до 1690, згрупованих у дві групи. Для того, щоб проаналізувати відмінності між цими групами, я почав з вивчення розподілу значень, щоб вибрати правильний тест.

Дотримуючись інструкції з тестування на нормальність, я зробив qqplot, гістограму та boxplot.

введіть тут опис зображення

введіть тут опис зображення введіть тут опис зображення

Це не здається нормальним розподілом. Оскільки керівництво дещо правильно стверджує, що суто графічне обстеження недостатньо, я також хочу перевірити розподіл на нормальність.

З огляду на розмір набору даних та обмеження тесту shapiro-wilks в R, як слід перевірити даний розподіл на нормальність та враховуючи розмір набору даних, чи це навіть надійно? ( Див. Прийняту відповідь на це запитання )

Редагувати:

Обмеження тесту Shapiro-Wilk, про який я говорю, полягає в тому, що набір даних, що підлягає тестуванню, обмежений 5000 балами. Навести ще одну вдалу відповідь на цю тему:

Додатковим питанням тесту Шапіро-Вілка є те, що, коли ви подаєте йому більше даних, шанси відхилити нульову гіпотезу зростають. Тож, що трапляється, це те, що для великих обсягів даних можна виявити навіть дуже невеликі відхилення від нормальності, що призводить до відхилення події нульової гіпотези, що відповідає практичним цілям, дані є більш ніж нормальними.

[...] На щастя shapiro.test захищає користувача від описаного вище ефекту, обмежуючи розмір даних до 5000.

Щодо того, чому я тестую на нормальне розповсюдження в першу чергу:

Деякі тести гіпотези передбачають нормальний розподіл даних. Хочу знати, чи можу я використовувати ці тести чи ні.


11
Немає бального тестування; кожен тест будь-якого використання взагалі, будь-який розумний рівень значущості явно відкине. Який би посібник ви не читали, вас оманув. Що саме означає "надійний". Про яке «обмеження» Шапіро-Вілка ви посилаєтесь? Я б майже погодився з твердженням у відповіді, на яку ви посилаєтесь ... "Я ніколи не стикався з ситуацією, коли нормальний тест - це правильно робити" (я хоч раз бачив ситуацію, коли я думаю, що це правильно робити, але люди майже завжди роблять це з поганих причин).
Glen_b -Встановити Моніку

@Glen_b: до речі, я виявив, що днями я використовував Шапіро – Вілка, щоб оцінити докази проти нуля, які хтось із Академії помилково вважав більшими, ніж це було зразком оцінок. Цікаво, чи це було захищене використання.
Нік Стаунер

@NickStauner моя відповідь занадто довго зросла на один коментар, і я не хочу захоплювати це запитання рядком коментарів до вашого повідомлення. Можливості. Ми спілкуємось у чаті, або ви ставите запитання про це (на яке я можу надіслати обширну відповідь), або обговорюємо це іншим способом, наприклад електронною поштою.
Glen_b -Встановити Моніку

Відповіді:


14

Я не бачу, чому ти турбуєшся. Це, очевидно, не нормально - в цьому випадку графічне обстеження мені здається достатнім. Ви отримали безліч спостережень з того, що виглядає як непоганий чистий гамма-розподіл. Просто піди з цим. якщо потрібно - я порекомендую розподіл посилань.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
введіть тут опис зображення

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

Як я завжди кажу, "Дивіться, чи тестування на нормальність" по суті є марним "? ", Особливо1.45.92.9

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.