За винятком Дурбіна-Уотсона, які тести на гіпотезу можуть дати непереконливі результати?


10

Тестова статистика Дарбіна-Уотсон може лежати в безрезультатною області, де не можливо або відхилити або відкинути нульову гіпотезу (в даному випадку, нульовий автокорреляции).

Які ще статистичні тести можуть дати "непереконливі" результати?

Чи є загальне пояснення (махання рукою добре), чому цей набір тестів не може прийняти двійкове рішення «відхилити» / «не відхилити»?

Це було б бонусом, якби хтось міг згадати теоретичні наслідки рішення як частину своєї відповіді на останній запит - чи означає наявність додаткової категорії висновку (в), що нам потрібно враховувати витрати типу I та II типу помилки більш складним способом?


2
Трохи поза темою, але рандомізовані тести мають такий аромат. Для деяких значень даних потрібно рандомізувати прийняття та відхилення.
Крістоф Ганк

@ChristophHanck дякую, це був цікавий зв’язок, якого я б не помітив. Не те, що я мав намір, але я цілеспрямовано тримав запитання, сподіваючись, що воно стане загальним - залежно від відповіді, я можу посилити свою увагу пізніше.
Срібна рибка

Відповіді:


10

У статті Вікіпедії пояснюється, що розподіл тестової статистики під нульовою гіпотезою залежить від матриці проектування - конкретної конфігурації значень прогнозів, що використовуються в регресії. Дербін і Уотсон розраховували нижню межу для тестової статистики, згідно з якою тест на позитивну автокореляцію повинен відхилятись при заданих рівнях значущості для будь-якої матриці проектування та верхніх меж, над якими тест не повинен відхилити будь-яку матрицю проектування. "Непереконливий регіон" - це лише той регіон, де вам доведеться обчислити точні критичні значення, враховуючи свою матрицю дизайну, щоб отримати однозначну відповідь.

Аналогічною ситуацією буде те, щоб виконати одноразовий однохвостий t-тест, коли ви знаєте лише t-статистику, а не розмір вибірки : 1.645 та 6.31 (відповідає нескінченному ступеню свободи та лише один) буде межі для тесту розміром 0,05.

Що стосується теорії рішень - у вас є нове джерело невизначеності, яке слід враховувати, крім варіації вибірки, але я не розумію, чому це не слід застосовувати так само, як і при складених нульових гіпотезах. Ви знаходитесь в тій самій ситуації, що і людина з невідомим параметром неприємності, незалежно від того, як ви потрапили туди; тому, якщо вам потрібно прийняти рішення про відхилення / збереження, контролюючи помилку типу I над усіма можливостями, відхиліть консервативно (тобто коли статистика Дурбіна – Уотсона знаходиться під нижньою межею або t-статистика перевищує 6,31).

† Або, можливо, ви втратили свої столи; але можна запам’ятати деякі критичні значення для стандартної гауссова & формули для квантильної функції Коші.


(+1) Дякую Я знав, що це стосується випробування Дурбіна-Уотсона (я мав би сказати, що в моєму запитанні насправді), але цікавився, чи це приклад більш загального явища, і якщо так, чи всі вони працюють по суті однаково. Я здогадувався, що це може статися, наприклад, при виконанні певних тестів, хоча один має доступ лише до підсумкових даних (не обов'язково в регресії), але DW - єдиний випадок, коли я можу згадати бачення верхніх та нижніх критичних значень, складених та табличних. . Якщо у вас є якісь думки щодо того, як я можу зробити так, щоб питання було краще націлене, це було б дуже раді.
Срібна рибка

Перше запитання трохи розпливчасте ("Які ще статистичні тести [...]?"), Але я не думаю, що ви могли б це уточнити, не відповівши на друге ("Чи є загальне пояснення [...]?") себе - загалом, я думаю, це все нормально, як є.
Scortchi

7

Іншим прикладом тесту з можливо непереконливими результатами є біноміальний тест на пропорцію, коли доступна лише пропорція, а не розмір вибірки. Це не зовсім нереально - ми часто бачимо чи чуємо погано повідомлені твердження форми "73% людей згодні з тим, що ..." і так далі, де знаменника немає.

H0:π=0.5H1:π0.5α=0.05

p=5%1195%α=0.05

p=49%

p=50%H0

p=0%p=50%p=5%p=0%p=100%p=16%Pr(X3)0.00221<0.025 так був би значним; для ми можемо мати 1 успіх у 6 випробуваннях, що є незначним, тому цей випадок є непереконливим (оскільки явно є інші вибірки з які було б суттєвим); для може бути 2 успіху в 11 випробуваннях (незначний, ), тому цей випадок також є непереконливим; але дляp=17%Pr(X1)0.109>0.025p=16%p=18%Пр(Х2)0,0327>0,025p=19%найменш значущий зразок - 3 успіхи в 19 випробуваннях з тож це знову важливо.Пр(Х3)0,0106<0,025

Насправді - це найвищий відсоток округлення нижче 50%, який є однозначно значущим на рівні 5% (його найвище значення р було б для 4 успіхів у 17 випробуваннях і є просто значущим), тоді як це найнижчий ненульовий результат, який є непереконливим (тому що це може відповідати 1 успіху в 8 випробуваннях). Як видно з наведених вище прикладів, те, що відбувається між ними, складніше! На графіку внизу є червона лінія у : точки під рядком однозначно значущі, але ті, що над ним, є непереконливими. Шаблон p-значень такий, що не буде одноосібної нижньої та верхньої меж спостережуваного відсотка, щоб результати були однозначно значущими.p = 13 % α = 0,05p=24%p=13%α=0,05

Найменше значне р-значення біноміального тесту з невідомим розміром вибірки

R код

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(Код округлення відривається з цього питання StackOverflow .)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.