Я вивчаю частину мого набору даних, що містить 46840 подвійних значень, розміром від 1 до 1690, згрупованих у дві групи. Для того, щоб проаналізувати відмінності між цими групами, я почав з вивчення розподілу значень, щоб вибрати правильний тест.
Дотримуючись інструкції з тестування на нормальність, я зробив qqplot, гістограму та boxplot.
Це не здається нормальним розподілом. Оскільки керівництво дещо правильно стверджує, що суто графічне обстеження недостатньо, я також хочу перевірити розподіл на нормальність.
З огляду на розмір набору даних та обмеження тесту shapiro-wilks в R, як слід перевірити даний розподіл на нормальність та враховуючи розмір набору даних, чи це навіть надійно? ( Див. Прийняту відповідь на це запитання )
Редагувати:
Обмеження тесту Shapiro-Wilk, про який я говорю, полягає в тому, що набір даних, що підлягає тестуванню, обмежений 5000 балами. Навести ще одну вдалу відповідь на цю тему:
Додатковим питанням тесту Шапіро-Вілка є те, що, коли ви подаєте йому більше даних, шанси відхилити нульову гіпотезу зростають. Тож, що трапляється, це те, що для великих обсягів даних можна виявити навіть дуже невеликі відхилення від нормальності, що призводить до відхилення події нульової гіпотези, що відповідає практичним цілям, дані є більш ніж нормальними.
[...] На щастя shapiro.test захищає користувача від описаного вище ефекту, обмежуючи розмір даних до 5000.
Щодо того, чому я тестую на нормальне розповсюдження в першу чергу:
Деякі тести гіпотези передбачають нормальний розподіл даних. Хочу знати, чи можу я використовувати ці тести чи ні.