Питання для початківців:
Я хочу перевірити, чи походять два дискретні набори даних з одного розподілу. Мені було запропоновано тест Колмогорова-Смірнова.
Коновер ( Практична непараметрична статистика , 3d), схоже, говорить про те, що для цього можна використати тест Колмогорова-Смірнова, але його поведінка є «консервативною» з дискретними розподілами, і я не впевнений, що це означає тут.
Коментар DavidR на інше запитання говорить: "... Ви все ще можете зробити тест рівня α на основі статистики KS, але вам доведеться знайти якийсь інший метод, щоб отримати критичне значення, наприклад, за допомогою моделювання".
Версія ks.test () у пакеті dgof R ( article , cran ) додає деякі можливості, відсутні у версії ks.test () за замовчуванням у пакеті статистики. Серед іншого, dgof :: ks.test включає цей параметр:
simulate.p.value: логічне вказівка, чи слід обчислювати р-значення методом Монте-Карло, лише для дискретних тестів на придатність.
Чи є метою simulate.p.value = T виконати те, що пропонує DavidR?
Навіть якщо це так, я не впевнений, чи дійсно я можу використовувати dgof :: ks.test для тесту на два зразки. Схоже, це лише тест на два зразки для безперервного розподілу:
Якщо y числовий, проводиться двопробний тест нульової гіпотези про те, що x і y були проведені з одного і того ж безперервного розподілу.
Альтернативно, y може бути символьним рядком, що називає функцію безперервного (кумулятивного) розподілу (або таку функцію), або функцію ecdf (або об'єкт класу stepfun), що дає дискретний розподіл. У цих випадках проводиться одноразове випробування з нуля, що функція розподілу, яка генерувала x, - це розподіл y ....
(Довідкові відомості: Власне кажучи, мої основні розподіли є безперервними, але дані, як правило, знаходяться дуже близько до декількох точок. Кожна точка є результатом моделювання і є середнім значенням 10 або 20 реальних чисел між -1 і 1. Наприкінці моделювання ці числа майже завжди дуже близькі до .9 або -9. Таким чином, засоби кластеруються навколо декількох значень, і я розглядаю їх як дискретні. Моделювання складне, і у мене немає причина думати, що дані слідують за відомим розподілом.)
Поради?