Я порівнюю зразок і перевіряю, чи він розподіляє як деякий, дискретний, розподіл. Однак я не впевнений, що застосовується Колмогоров-Смірнов. Вікіпедія, схоже, означає, що це не так. Якщо це не так, як я можу перевірити розподіл вибірки?
Я порівнюю зразок і перевіряю, чи він розподіляє як деякий, дискретний, розподіл. Однак я не впевнений, що застосовується Колмогоров-Смірнов. Вікіпедія, схоже, означає, що це не так. Якщо це не так, як я можу перевірити розподіл вибірки?
Відповіді:
Це не стосується дискретних розподілів. Дивіться, наприклад, http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm .
Чи є якась причина, що ви не можете використовувати тест на корисність чи-квадрата? див. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm для отримання додаткової інформації.
Як це часто трапляється в статистиці, це залежить від того, що ви маєте на увазі .
Якщо ви маєте на увазі "Я обчислюю свою тестову статистику на вибірці, складеній з дискретного розподілу, а потім шукаю стандартні таблиці", тоді ви отримаєте справжній показник помилок типу I нижчий від обраного вами (можливо, набагато нижчий).
Скільки залежить від того, наскільки дискретним є розподіл. Якщо ймовірність будь-якого одного результату досить низька (тому очікується, що частка пов'язаних значень у даних буде низькою), це не матиме великого значення - у багатьох людей не буде проблем із запуском 5 % тесту на 4,5% кажуть. Так, наприклад, якщо ви тестуєте дискретну форму на [1,1000], вам, мабуть, не потрібно турбуватися.
Але якщо існує велика ймовірність прив'язки значення, то вплив на коефіцієнт помилок типу I може бути позначений. Якщо ви отримаєте рівень значущості 0,005, коли хотіли 0,05, це може бути проблемою, оскільки це відповідно вплине на потужність.
Якщо замість цього ви маєте на увазі "Я обчислюю свою тестову статистику на вибірці, витягнуті з дискретного розподілу, а потім використовую відповідне критичне значення / обчислюю відповідне значення р для моєї ситуації" (скажімо, наприклад, через тест перестановки), то тест Безумовно, справедливо в тому сенсі, що ви отримаєте правильний показник помилок типу I - звичайно, до дискретності самої тестової статистики. (Хоча цілком можуть бути і кращі тести для вашої конкретної мети, як і зазвичай у безперервному випадку.)
Зауважте, що сам розподіл тестової статистики вже не є розподілом, але тест перестановки дозволяє уникнути цього.
Тому іноді нормально використовувати стандартні таблиці навіть при дискретних розподілах, і навіть коли це не нормально, це не стільки тестова статистика, скільки критичні значення / p-значення, які ви використовуєте з нею, ось у чому проблема.