Чи існує версія зразка чи альтернатива тесту Колмогорова-Смірнова?


12

Я порівнюю розподіл дерев за розмірами на шість пар ділянок, де одна ділянка отримала обробку, а інша - контроль. Використовуючи тест Колмогорова-Смірнова на кожній парі ділянок, я знаходжу, що коливається від до . Чи існують відповідні методи спільної роботи з усіма репліками, наприклад, багатопробне розширення тесту KS, чи є відповідний наступний тест? Або мені просто зробити висновок на кшталт "Розподіл розмірів суттєво відрізняється ) на 2 пари ділянок і незначно ( ) в одній парі ділянок."0,0003707 0,75 ( p < 0,05 p = 0,59p0.00037070.75(p<0.05p=0.59


2
Що ви хочете порівняти щодо цих розподілів, що вони різняться за центральною тенденцією чи відрізняються за формою? Я схильний вважати KS як більше про форму / характер розподілу, але щось на кшталт тесту Фрідмана може визначити, що зразки відрізняються центральною тенденцією.
gung - Відновіть Моніку

Відповіді:


13

Насправді є кілька зразків тестів KS. Наприклад, r-зразок Колмогорова-Смірнова-Тест з який, я вважаю, має хорошу силу. Передрук цього красивого паперу доступний тут . Я також знаю K-зразки аналогів Колмогорова-Смирнова і Крамера-V. Тести Мізеса (але, наскільки я знаю, вони мають меншу потужність).r2


5
Ну, недоліком цієї "красивої" статті Бьома та Горника є те, що настільки, наскільки я можу сказати, немає загальнодоступної реалізації. Математика є досить складною, що ви не хотіли б її самостійно впроваджувати. Я надіслав поштою авторам і попросив їх, але вони не відповіли. Зауважте, що Hornik є членом групи розробників R Core ... Якщо хтось знає про реалізацію, будь ласка, опублікуйте посилання тут!
Ларикс Декідуа

8

Існує пакет kSamples R, який дає вам, крім усього іншого, непараметричний к-зразок тесту Андерсона-Дарлінга. Нульова гіпотеза полягає в тому, що всі k зразки прийшли з одного розподілу, який не потрібно вказувати. Можливо, ви можете цим скористатися.

Невеликий приклад порівняння зразків нормального та гамма-розподіленого масштабу, так що вони мають однакове середнє значення та дисперсію:

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"

4

Пара підходів:

Використовуйте парні значення p, але відрегулюйте їх для декількох порівнянь, використовуючи щось на зразок Bon Feroni або False Discovery Rate Ratemetnes (перше, мабуть, буде трохи над консервативним). Тоді ви можете бути впевнені, що будь-які, які все ще значно відрізняються, ймовірно, не пов'язані з багаторазовим тестуванням.

Ви можете створити загальний тест на смак KS, знайшовши найбільшу відстань між будь-яким з розподілів, тобто побудуйте всі емпіричні файли PDF і знайдіть найбільшу відстань від найнижчої до найвищої лінії, а може бути, середня відстань чи якесь інше значення міра. Тоді ви можете дізнатися, чи це важливо, зробивши тест на перестановку: згрупуйте всі дані в 1 велику скриньку, а потім випадковим чином поділіть їх на групи з тими ж розмірами вибірки, що і ваші вихідні групи, перерахуйте статистику на перестановлені дані та повторіть процес багато разів (999 або близько того). Потім подивіться, як ваші вихідні дані порівнюються з перестановленими наборами даних. Якщо вихідна статистика даних потрапляє в середину перестановлених, то значущих відмінностей не знайдено, але якщо вона знаходиться на межі, або поза будь-яким із перестановлених, то відбувається щось істотне (але це не говорить вам про різні). Вам, мабуть, слід спробувати це з імітованими даними, де ви знаєте, що різниця є достатньо великою, щоб бути цікавою лише для того, щоб перевірити силу цього тесту, щоб знайти цікаві відмінності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.