Чи можете ви обчислити потужність тесту Колмогорова-Смірнова в R?


10

Чи можливо зробити аналіз потужності для двостороннього тесту Колмогорова Смірнова в R?

Я перевіряю, чи відрізняються два емпіричні розподіли за допомогою ks.test (), і хочу додати аналіз потужності.

Я не зміг знайти вбудований аналіз потужності для тестів на KS в Р. Будь-які пропозиції?

Редагувати : це випадкові згенеровані розподіли, які приблизно наближають мої дані (із справжніми розмірами вибірки та передбачуваними швидкостями розпаду експоненціальних розподілів)

set.seed(100)
x <- rexp(64, rate=0.34)
y <- rexp(54,rate=0.37)

#K-S test: Do x and y come from same distribution?
ks.test(x,y)

Ці дані є мірами розміру тіла у двох різних групах. Я хочу показати, що обидві групи мають однаковий розподіл, але співрозмовник запитав мене, чи маю я змогу сказати, що виходячи з розмірів вибірки. Я випадково витягнувся з експоненціального розподілу тут, але вони близькі до реальних даних.

Поки що я говорив, що на основі двостороннього тесту KS не існує суттєвої різниці в цих розподілах. Я також побудував дві дистрибуції. Як я можу показати, що я маю змогу зробити таке твердження, враховуючи розміри вибірки та швидкості занепаду для x та y?


4
Потужність залежатиме від багатьох речей, тому не було б вбудованого для двох зразків тесту. Ви можете імітувати для заданих ситуацій. Отже: Влада зважаючи на які припущення щодо ситуації? Проти якої альтернативи чи послідовності альтернатив? Наприклад, ви можете обчислити (змоделювати) криву потужності для експоненціально розподілених даних проти набору альтернатив зміщення масштабу. Або ви можете обчислити потужність для нормальної щодо зміни місця. Або ви можете обчислити потужність у Weibull, змінюючи параметр форми. Чи є у вас додаткові деталі?
Glen_b -Встановіть Моніку

Щоб фактично обчислити потужність, вам також знадобляться розміри зразків. Якщо ви намагаєтеся визначити розмір вибірки з заданою потужністю проти певної альтернативи, це можна зробити за допомогою кореневого пошуку, але часто можна знайти крапку простими підходами (спроба пари розмірів вибірки, як правило, достатня для того, щоб зблизитись ).
Glen_b -Встановіть Моніку

Яка змінна вимірюється? Це ці часи?
Glen_b -Встановіть Моніку

@Glen_b Це не часи. Вони є мірами розміру тіла у двох різних групах. Я хочу показати, що обидві групи мають однаковий розподіл, але мене запитали, чи маю я змогу сказати, що виходячи з розмірів вибірки.
Сара

1
Ах! Це два корисні контексти, які можуть допомогти у вашому питанні. Отже, ідея полягає в тому, що якщо ви докажете, що можливість виявити деякі умовно скромні відмінності було розумним, можна було б сприйняти невдачу як ознаку того, що різниця мала. Так, попередній аналіз потужності може допомогти у виправданні цього аргументу. Після факту я, мабуть, зосередився б на чомусь на зразок оцінки (можливо, і довірчого інтервалу) зміни масштабу як ознаки того, що різниця насправді був невеликим за розміром, а також на графіці двох зразкових cdfs.
Glen_b -Встановіть Моніку

Відповіді:


16

Пошук сили проти експоненціальних альтернатив зміщення масштабу досить просто.

Однак я не знаю, що вам слід використовувати значення, обчислені з ваших даних, щоб визначити, яка потужність могла бути. Подібний пост-спеціальний розрахунок потужності, як правило, призводить до контрінтуїтивних (а може бути оманливих) висновків.

Влада, як рівень значущості, - це явище, з яким ви маєте справу перед фактом; ви б використали апріорне розуміння (включаючи теорію, міркування чи будь-які попередні дослідження), щоб визначитися з розумним набором альтернативних варіантів і бажаним розміром ефекту

Ви також можете розглянути цілий ряд інших альтернатив (наприклад, ви могли б вбудувати експоненцію всередині сімейства гамма, щоб врахувати вплив більш-менш випадків перекосу).

Звичайні питання, на які можна спробувати відповісти шляхом аналізу потужності:

1) яка потужність для заданого розміру вибірки для якогось ефекту чи набору розмірів ефекту *?

2) з огляду на розмір вибірки та потужність, наскільки великий ефект виявляється?

3) Враховуючи бажану потужність для конкретного розміру ефекту, який розмір вибірки потрібен?

* (де тут "розмір ефекту" призначений загально, і це може бути, наприклад, певне співвідношення засобів або різниця засобів, не обов'язково стандартизованих).

Очевидно, що ви вже маєте розмір вибірки, тому вам не в цьому випадку (3). Ви можете обґрунтовано розглянути випадок (2) або випадок (1).

Я б запропонував випадок (1) (який також дає спосіб впоратися із справою (2)).

Щоб проілюструвати підхід до справи (1) та побачити, як він стосується випадку (2), розглянемо конкретний приклад із:

  • альтернативи зміщення масштабу

  • експоненціальні популяції

  • розміри вибірки у двох зразках 64 та 54

Оскільки розміри вибірки різні, ми маємо розглянути випадок, коли відносне розкид в одному з зразків є і меншим, і більшим за 1 (якщо вони були однакового розміру, симетричні міркування дозволяють розглядати лише одну сторону). Однак, оскільки вони досить близькі до однакових розмірів, ефект дуже малий. У будь-якому випадку зафіксуйте параметр для однієї вибірки та змініть інший.

Отже, що робити:

Заздалегідь:

choose a set of scale multipliers representing different alternatives
select an nsim (say 1000)
set mu1=1

Щоб виконати розрахунки:

for each possible scale multiplier, kappa 
  repeat nsim times
    generate a sample of size n1 from Exp(mu1) and n2 from Exp(kappa*mu1)
    perform the test
  compute the rejection rate across nsim tests at this kappa

У R я зробив це:

alpha = 0.05
n1 = 54
n2 = 64
nsim = 10000
s = c(1.1,1.2,1.5,2,2.5,3) # set up grid for kappa
s = c(1/rev(s),1,s)        #  also below and at 1
rr = array(NA,length(s))   # to hold rejection rates

for(i in seq_along(s)) rr[i]=mean(replicate(nsim,
                                    ks.test(rexp(n1,1),rexp(n2,s[i]))$p.value)<alpha
                                 )

plot(rr~s,log="x",ylim=c(0,1),type="n") #set up plot
points(rr~rev(s),col=3) # plot the reversed case to show the (tiny) asymmetry+noise
points(rr~s,col=1) # plot the "real" case last 
abline(h=alpha,col=8,lty=2) # draw in alpha

яка дає наступну потужність "крива"

введіть тут опис зображення

Вісь x знаходиться в масштабі журналу, вісь y - швидкість відхилення.

Тут важко сказати, але чорні точки трохи вище зліва, ніж справа (тобто є частково більше потужності, коли більший зразок має менший масштаб).

Використовуючи обернену нормальну cdf як перетворення швидкості відхилення, ми можемо скласти залежність між трансформованою швидкістю відхилення та log kappa (kappa є sв графіку, але вісь x масштабується) дуже майже лінійною (за винятком близько 0 ), а кількість симуляцій була достатньо високою, що шум дуже низький - ми можемо просто ігнорувати його в сучасних цілях.

Тож ми можемо просто використовувати лінійну інтерполяцію. Нижче показано приблизні розміри ефектів для 50% та 80% потужності для ваших розмірів вибірки:

введіть тут опис зображення

Розміри ефектів з іншого боку (більша група має менший масштаб) лише злегка зміщені від цього (можна підібрати частково менший розмір ефекту), але це має незначну різницю, тому я не буду працювати на цьому.

Таким чином, тест дозволить отримати істотну різницю (від співвідношення шкал 1), але не малу.


Тепер для коментарів: я не думаю, що тести гіпотези особливо актуальні для основного питання, що цікавить ( чи вони досить схожі? ), І, отже, ці розрахунки потужності не говорять нам про щось, що має безпосереднє значення для цього питання.

Я думаю, ви вирішуєте це корисніше питання, уточнюючи, що, на вашу думку, «по суті те саме» насправді означає оперативно. Це - раціонально спрямоване на статистичну діяльність - повинно призвести до змістовного аналізу даних.


Дуже дякую! Це справді корисно, дуже цінується.
Сара

0

Оскільки Колмогоров-Смірнов є непараметричним, тому за визначенням не може бути застосований аналіз потужності. Щоб мати якусь оцінку, потрібно взяти фонову модель (і, таким чином, відвернутися від непараметричного світу ...) і використовувати її для обчислення одного з наступних: розмір вибірки, MDE або потужність (тобто, ви виправити / вибрати два та обчислити третє).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.