Що це за трюк із додаванням сюди 1?


11

Я дивився на цю сторінку про реалізацію Монте-Карло тесту Ліллефорса. Я не розумію цього речення:

Існує випадкова помилка в цьому розрахунку від моделювання. Однак через хитрість додавання 1 до чисельника та знаменника при обчисленні значення P це може бути використане прямо, без огляду на випадковість.

Що вони означають під хитрістю додавання 1 до чисельника та знаменника?

Відповідний фрагмент коду тут:

n <- length(x)
nsim <- 4999
d.star <- double(nsim)
for (i in 1:nsim) {
    x.star <- rnorm(n)
    d.star[i] <- fred(x.star)
}
hist(d.star)
abline(v = d.hat, lty = 2)
## simulation-derived P-value
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)

Чи можете ви додати тут відповідний контекст?
gung - Відновіть Моніку

4
Схоже, згладжування Лапласа для оцінювача ймовірностей Монте-Карло, що зменшує його до 1/2; Основним ефектом є, мабуть, уникнути отримання будь-якого р-значення 0, як зазначав @Tim (хоча немає ризику ділитися на 0, як він сказав, якщо ви не робите 0 моделювання). Я дійсно не розумію, чому це дозволяє використовувати його "без огляду на випадковість", хоча.
Дугал

2
Ви написали Гейєру безпосередньо, щоб запитати, що означає речення?
Олексій

@ Алексис, ні, але це гарна ідея.
Аксакал

@Dougal, так, це схоже на згладжування Лапласа. Не ясно, чому він його тут застосовує.
Аксакал

Відповіді:


6

Пояснення на зазначеній сторінці є

k / n simPr(Pk/nsim)k/nsim

Щоб зрозуміти це, ми повинні подивитися на код, ключовим рядком якого є (значно скорочено)

fred <- function(x) {ks.test(...)$statistic}  # Apply a statistical test to an array
d.hat <- fred(x)                              # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
                2, fred)                      # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value

Основна проблема полягає в тому, що код не відповідає котировці. Як ми можемо їх узгодити? Одна спроба починається з останньої половини пропозиції. Ми можемо інтерпретувати процедуру як таку, що містить такі етапи:

  1. Collect незалежно один від одного і однаково розподілені дані відповідно до деякого імовірнісного закону . Застосуйте тестову процедуру (реалізовану в коді як ) для отримання числа . G t T 0 = t ( X 1 , , X n )X1,X2,,XnGtfredT0=t(X1,,Xn)

  2. Сформувати з допомогою комп'ютера порівнянних наборів даних, кожен з розміру , в відповідно до нульової гіпотезою з ймовірністю закону . Застосуйте до кожного такого набору даних, щоб створити чисел . n F t N T 1 , T 2 , , T NN=nsimnFtNT1,T2,,TN

  3. Обчисліть

    P=(i=1NI(Ti>T0)+1)/(N+1).

    (" " - це функція індикатора, реалізована за допомогою векторного порівняння в коді.) Права частина розуміється випадковою через одночасну випадковість (фактична статистика тесту) та випадковість ( змодельована тестова статистика). T 0 T iId.star > d.hatT0Ti

Для того, щоб сказати , що дані відповідають нульової гіпотези є твердження , що . Виберіть розмір тесту , . Помноження обох сторін на і віднімання показує, що ймовірність того, що для будь-якого числа є ймовірністю, що не більше з перевищує . Це говорить лише про те, що лежить у верхній частині відсортованого набору всіх тестових статистичних даних. Оскільки (за конструкцією)α 0 < α < 1 N + 1 1 P α α ( N + 1 ) α - 1 T i T 0 T 0 ( N + 1 ) α N + 1 T 0 T i F ( N + 1 ) α Pr ( P α ) = F=Gα0<α<1N+11Pαα(N+1)α1TiT0T0(N+1)αN+1T0є незалежним від усіх , коли - безперервний розподіл, цей шанс буде часткою від загальної кількості, представленої цілою частиною ; тобто і це буде рівно рівний - це ціле число ; тобто коли .TiF(N+1)α(N+1)αkα=k/(N+1)

Pr(Pα)=(N+1)αN+1α
(N+1)αkα=k/(N+1)

Це, безумовно, є однією з речей, які ми хочемо відповідати будь-якій величині, яку заслуговує назвати "р-значення": вона повинна мати рівномірний розподіл на . За умови, що є досить великим, так що будь-яка близька до деякої частки форми , цей матиме близьку до рівномірної форми розповсюдження. (Щоб дізнатися про додаткові умови, необхідні для p-значення, будь ласка, прочитайте діалогове вікно, яке я розмістив на тему p-значень. )N + 1 α k / ( N + 1 ) = k / ( n sim + 1 ) P[0,1]N+1αk/(N+1)=k/(nsim+1)P

Очевидно, що в цитаті слід використовувати " " замість " ", де б вона не з’явилася.n simnsim+1nsim


5

Я вважаю, що тут додається 1 до обох, оскільки спостережувана статистика включена в еталонний розподіл; якщо це так, це через "принаймні настільки ж велику" частину визначення р-значення.

Я точно не знаю, оскільки текст, здається, говорить щось інше, але саме тому я б це зробив.


1
@whuber Я не бачу, як я можу погодитися. Не всі тести є тестами співвідношення ймовірності; якщо вони не ЛРТ, яке значення може інтерпретувати це з точки зору ймовірності?
Glen_b -Встановіть Моніку

1
@whuber Це, безумовно, може зробити. Але розглянемо, наприклад, Wilcoxon-Mann-Whitney (і справді, тести на перестановку ширше). Існує будь-яка кількість абсолютно розумних тестів у широкому використанні, які не є ні тестом Лілліфорса, ні тестом імовірності. Якщо існує чітка альтернатива, проти якої бажана потужність, часто можливо побудувати змістовну тестову статистику, коли впорядкування на вибірковому просторі, що надається тестовою статистикою, має ідеальний сенс і має розумні властивості в широкому діапазоні альтернатив.
Glen_b -Встановіть Моніку

1
Безумовно, коли виходить тестова статистика, яка відповідає (у сенсі прийняття більш екстремальних значень, будь то більших, менших чи обох), цікавить альтернативу, альтернатива - "альтернатива, яка зацікавлена ​​в "- але навіть якби користуватися неприпустимим (справді, навіть марним тестом), принцип, який я окреслюю у своїй відповіді про включення спостережуваної вибірки до імітованих результатів, все одно застосовуватиметься. Після того, як у вас є впорядкування, навіть якщо це не найкраще, при обчисленні p-значень спостережуваний випадок все одно буде належати до підрахунку.
Glen_b -Встановити Моніку

2
@whuber, можливо, ми зараз не так далеко один від одного. Вибираючи обґрунтовану статистику тесту, ми, безумовно, хотіли б звернутися до чогось . Але як тільки ми маємо тестову статистику (як це треба мати до того моменту, коли ми моделюємо під нуль), ми вже це зробили. І як тільки ми маємо, причина, чому ми включили б спостережуваний випадок у наш розрахунок p-значення, через те, що таке p-значення.
Glen_b -Встановіть Моніку

1
Я не думаю, що у нас взагалі немає різниць. (Зауважте, що моя власна відповідь дає зрозуміти, що включити спостережувану вибірку в підрахунок.) Мій коментар не був спрямований на вашу відповідь на запитання (з яким я згоден і схвальний), а лише на проблемну фразу "принаймні як великий ". Я бачу, що ця фраза неправильно трактується на стільки місцях на цьому веб-сайті (та інших місцях), що я хотів звернути увагу читачів на те, що воно насправді має означати.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.