Яка різниця між тестом Шапіро-Вілка на нормальність і тестом Колмогорова-Смірнова на нормальність? Коли результати цих двох методів будуть відрізнятися?
Яка різниця між тестом Шапіро-Вілка на нормальність і тестом Колмогорова-Смірнова на нормальність? Коли результати цих двох методів будуть відрізнятися?
Відповіді:
Ви навіть не можете порівняти ці два, оскільки Колмогоров-Смирнов призначений для повністю визначеного розподілу (тому, якщо ви перевіряєте нормальність, потрібно вказати середнє значення та відхилення; їх неможливо оцінити за даними *), Шапіро-Вілк - це нормальність, не визначена середня величина та дисперсія.
* ви також не можете стандартизувати, використовуючи оцінені параметри та тестувати на стандартне нормальне; це насправді те саме.
Одним із способів порівняння буде доповнення Shapiro-Wilk тестом на задане середнє значення та дисперсію в нормі (комбінування тестів певним чином) або встановленням таблиць KS, відрегульованих для оцінки параметрів (але тоді це вже не розподіл -вільно).
Існує такий тест (еквівалентний Колмогорову-Смірнову з розрахунковими параметрами) - тест Лілліфорса; версія тесту на нормальність може бути достовірно порівняна з Shapiro-Wilk (і, як правило, матиме меншу потужність). Більш конкурентоспроможним є тест Андерсона-Дарлінга (який також повинен бути скоригований для оцінки параметрів, щоб порівняння було дійсним).
Що стосується того, що вони тестують - тест KS (та Лілліфорс) розглядає найбільшу різницю між емпіричним CDF та заданим розподілом, тоді як Shapiro Wilk ефективно порівнює дві оцінки дисперсії; тісно пов'язана Шапіро-Франція може розглядатися як монотонна функція кореляції квадрата у графіці QQ; якщо я правильно згадую, Шапіро-Вілк також враховує коваріації між статистикою замовлень.
[Слід пам’ятати, що доступно набагато більше тестів на нормальність, ніж ці.]
hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))
- якби р-значення були такими, якими вони повинні бути, це виглядало б рівномірно!
Якщо коротко сказано, тест Шапіро-Вілка є специфічним тестом на нормальність, тоді як метод, який використовується тестом Колмогорова-Смірнова, є більш загальним, але менш потужним (тобто він рідше відкидає нульову гіпотезу про нормальність). Обидві статистичні дані приймають нормальність як нульову та встановлюють тестову статистику на основі вибірки, але те, як вони це роблять, відрізняється одна від одної тим, що робить їх більш-менш чутливими до особливостей звичайних розподілів.
Як саме розраховано W (статистика випробувань для Шапіро-Вілка), це дещо пов'язане , але концептуально це включає в себе вибір вибіркових значень за розміром і вимірювання відповідності очікуваним засобам, відхиленням і коваріаціям. Ці множинні порівняння з нормальністю, наскільки я розумію, дають випробуванню більше сили, ніж тест Колмогорова-Смірнова, який є одним із способів, якими вони можуть відрізнятися.
Навпаки, тест Колмогорова-Смірнова на нормальність виходить із загального підходу до оцінки корисності при порівнянні очікуваного кумулятивного розподілу з емпіричним кумулятивним розподілом:
Як такий, він чутливий у центрі розповсюдження, а не хвости. Однак КС є тестом конвергентним, в тому сенсі, що як n прагне до нескінченності, тест вірогідним чином сходиться до істинної відповіді (я вважаю, що теорема Глівенко-Кантеллі застосовується тут, але хтось може мене виправити). Це ще два способи, за якими ці два тести можуть відрізнятися в оцінці їх нормальності.