Чи справедливий тест Колмогорова-Смірнова при дискретних розподілах?


29

Я порівнюю зразок і перевіряю, чи він розподіляє як деякий, дискретний, розподіл. Однак я не впевнений, що застосовується Колмогоров-Смірнов. Вікіпедія, схоже, означає, що це не так. Якщо це не так, як я можу перевірити розподіл вибірки?


+1 Прекрасний приклад помилкового застосування тесту KS до даних із (багатьма) зв’язками наведено на довідковій сторінці для надбудови статистики Excel за адресою real-statistics.com/non-parametric-tests/goodness-of-fit- тести /… . Результат з багатьох причин неправильний. Caveat lector!
whuber

KS-тести на дискретні нульові розподіли доступні: en.wikipedia.org/wiki/…
Астрід

Відповіді:


14

Це не стосується дискретних розподілів. Дивіться, наприклад, http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm .

Чи є якась причина, що ви не можете використовувати тест на корисність чи-квадрата? див. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm для отримання додаткової інформації.


Вибачте за вторгнення, але я не дуже розумію, чому він застосований лише до постійного розповсюдження (KS та інші тести перевірки). Чи може хтось пояснити мені цей факт?
Мауріціо

6
@Maurizio - статистика тесту KS має однаковий розподіл у всіх безперервних розподілах, але якщо фактичний розподіл не є безперервним, і намагається побудувати тест рівня припускаючи, що розподіл безперервний, то фактичний рівень тесту з меншим значенням, ніж . (пор. Леманн і Романо Тестування статистичних гіпотез, Третє видання , стор. 584). Ви все ще можете зробити рівень тесту на основі статистики KS, але вам доведеться знайти інший метод, щоб отримати критичне значення, наприклад, за допомогою моделювання. α αααα
DavidR

Існує дискретний KS-тест: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid

7

Як це часто трапляється в статистиці, це залежить від того, що ви маєте на увазі .

  1. Якщо ви маєте на увазі "Я обчислюю свою тестову статистику на вибірці, складеній з дискретного розподілу, а потім шукаю стандартні таблиці", тоді ви отримаєте справжній показник помилок типу I нижчий від обраного вами (можливо, набагато нижчий).

    Скільки залежить від того, наскільки дискретним є розподіл. Якщо ймовірність будь-якого одного результату досить низька (тому очікується, що частка пов'язаних значень у даних буде низькою), це не матиме великого значення - у багатьох людей не буде проблем із запуском 5 % тесту на 4,5% кажуть. Так, наприклад, якщо ви тестуєте дискретну форму на [1,1000], вам, мабуть, не потрібно турбуватися.

    Але якщо існує велика ймовірність прив'язки значення, то вплив на коефіцієнт помилок типу I може бути позначений. Якщо ви отримаєте рівень значущості 0,005, коли хотіли 0,05, це може бути проблемою, оскільки це відповідно вплине на потужність.

  2. Якщо замість цього ви маєте на увазі "Я обчислюю свою тестову статистику на вибірці, витягнуті з дискретного розподілу, а потім використовую відповідне критичне значення / обчислюю відповідне значення р для моєї ситуації" (скажімо, наприклад, через тест перестановки), то тест Безумовно, справедливо в тому сенсі, що ви отримаєте правильний показник помилок типу I - звичайно, до дискретності самої тестової статистики. (Хоча цілком можуть бути і кращі тести для вашої конкретної мети, як і зазвичай у безперервному випадку.)

    Зауважте, що сам розподіл тестової статистики вже не є розподілом, але тест перестановки дозволяє уникнути цього.

Тому іноді нормально використовувати стандартні таблиці навіть при дискретних розподілах, і навіть коли це не нормально, це не стільки тестова статистика, скільки критичні значення / p-значення, які ви використовуєте з нею, ось у чому проблема.


Як завжди, Глен, ваша відповідь - якісна. Але, мабуть, найкраща частина в тому, що ви насправді повторили жарт, який я виголосив у цій публікації про статистиків, кажучи "це залежить"! stats.stackexchange.com/questions/182442/…
Sycorax повідомляє про відновлення Моніки

1
@ user777 це було не випадково; це мене розвеселило, і я думав, читаючи це питання "ну, це залежить" ... тож я переконався сказати це явно, щоб повторити ваш пост.
Glen_b -Встановіть Моніку

1
Мій вечір просто покращився. Ура!
Sycorax каже, що повернеться до Моніки

2

Я вважаю, що тест KS використовує той факт, що якщо - випадкова величина з CDF то є рівномірною випадковою змінною. Це не так, якщо не є безперервним. Наприклад, якщо - Бернуллі, то , а не рівномірний.F F ( X ) X X F ( X ) = XXFF(X)XXF(X)=X

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.