Пояснення на зазначеній сторінці є
k / n simПр ( Р≤ k / nсим)к / нсим
Щоб зрозуміти це, ми повинні подивитися на код, ключовим рядком якого є (значно скорочено)
fred <- function(x) {ks.test(...)$statistic} # Apply a statistical test to an array
d.hat <- fred(x) # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
2, fred) # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value
Основна проблема полягає в тому, що код не відповідає котировці. Як ми можемо їх узгодити? Одна спроба починається з останньої половини пропозиції. Ми можемо інтерпретувати процедуру як таку, що містить такі етапи:
Collect незалежно один від одного і однаково розподілені дані відповідно до деякого імовірнісного закону . Застосуйте тестову процедуру (реалізовану в коді як ) для отримання числа . G t T 0 = t ( X 1 , … , X n )Х1, X2, … , XнГтfred
Т0= t ( X1, … , Xн)
Сформувати з допомогою комп'ютера порівнянних наборів даних, кожен з розміру , в відповідно до нульової гіпотезою з ймовірністю закону . Застосуйте до кожного такого набору даних, щоб створити чисел . n F t N T 1 , T 2 , … , T NN= nсимнЖтNТ1, Т2, … , ТN
Обчисліть
П= ( ∑i = 1NЯ( Тi> Т0) + 1 ) / ( N+ 1 ) .
(" " - це функція індикатора, реалізована за допомогою векторного порівняння в коді.) Права частина розуміється випадковою через одночасну випадковість (фактична статистика тесту) та випадковість ( змодельована тестова статистика). T 0 T iЯd.star > d.hat
Т0Тi
Для того, щоб сказати , що дані відповідають нульової гіпотези є твердження , що . Виберіть розмір тесту , . Помноження обох сторін на і віднімання показує, що ймовірність того, що для будь-якого числа є ймовірністю, що не більше з перевищує . Це говорить лише про те, що лежить у верхній частині відсортованого набору всіх тестових статистичних даних. Оскільки (за конструкцією)α 0 < α < 1 N + 1 1 P ≤ α α ( N + 1 ) α - 1 T i T 0 T 0 ( N + 1 ) α N + 1 T 0 T i F ⌊ ( N + 1 ) α ⌋ Pr ( P ≤ α ) = ⌊Ж= Gα0 < α < 1N+ 11П≤ αα( N+ 1 ) α - 1ТiТ0Т0( N+ 1 ) αN+ 1Т0є незалежним від усіх , коли - безперервний розподіл, цей шанс буде часткою від загальної кількості, представленої цілою частиною ; тобто і це буде рівно рівний - це ціле число ; тобто коли .ТiЖ⌊ ( N+ 1 ) α ⌋(N+1)αkα=k/(N+1)
Пр ( Р≤ α ) = ⌊ ( N+ 1 ) α ⌋N+ 1≈ α
( N+ 1 ) αкα = k / ( N+ 1 )
Це, безумовно, є однією з речей, які ми хочемо відповідати будь-якій величині, яку заслуговує назвати "р-значення": вона повинна мати рівномірний розподіл на . За умови, що є досить великим, так що будь-яка близька до деякої частки форми , цей матиме близьку до рівномірної форми розповсюдження. (Щоб дізнатися про додаткові умови, необхідні для p-значення, будь ласка, прочитайте діалогове вікно, яке я розмістив на тему p-значень. )N + 1 α k / ( N + 1 ) = k / ( n sim + 1 ) P[0,1]N+1αk/(N+1)=k/(nsim+1)P
Очевидно, що в цитаті слід використовувати " " замість " ", де б вона не з’явилася.n simnsim+1nsim