Про точний тест Фішера: Який тест був би доречним, якби дама не знала кількість перших чашок молока?


18

У відомому експерименті з чаєм, який пробував чай від Р. Фішера, леді повідомляється про те, скільки є чашок для молока / чаю з першим чаєм (4 на кожну з 8 чашок). Це враховує фіксовану граничну загальну припущення про тест Фішера.

Я уявляв, як роблю цей тест зі своїм другом, але ця думка мене вразила. Якщо дама справді може визначити різницю між чашками для молока та чаю з першим чаєм, вона повинна мати можливість визначити граничну кількість чашок для молока / чаю для першого чаю, а також, які з них.

Отже, ось питання: Який тест можна було б використати, якби Р. А. Фішер не повідомив даму про загальну кількість чашок молока та чаю?


4
Дехто може стверджувати, що навіть якщо другий запас не визначений дизайном, він несе в собі мало інформації про здатність дами до дискримінації (тобто це приблизно допоміжний характер) і слід її обумовлювати. Точний безумовний тест (вперше запропонований Барнардом, я думаю) є складнішим, оскільки вам доведеться обчислити максимальне значення p над усіма можливими значеннями параметра неприємності.
Scortchi

4
Насправді тест Барнарда має сторінку Вікіпедії.
Scortchi

@Scortchi, що ще можна сказати? Я б нічого до цього не додав (і не встиг би сказати це так чітко і лаконічно). Напроти двох ваших коментарів, я думаю, ви маєте прекрасну відповідь.
Glen_b -Встановити Моніку

1
Існує деяка дискусія, яку варто переглянути (як серед публікацій, так і серед дискусійних) у Yates, F. (1984) "Тести значущості для 2 × 2 таблиць на випадок надзвичайних ситуацій", журнал Королівського статистичного товариства. Серія А (Загальне) , Вип. 147, № 3, с. 426-463.
Glen_b -Встановити Моніку

1
Тільки в середньому, за 4 чашки чаю з молоком і 4 без, ми можемо сказати, що вона вірогідна 121212

Відповіді:


16

Дехто може стверджувати, що навіть якщо другий запас не визначений дизайном, він несе в собі мало інформації про здатність дами до дискримінації (тобто це приблизно допоміжний характер) і слід її обумовлювати. Точний безумовний тест (вперше запропонований Барнардом ) є складнішим, оскільки вам потрібно обчислити максимальне значення p над усіма можливими значеннями параметра неприємності, а саме загальну ймовірність Бернуллі під нульовою гіпотезою. Зовсім недавно було запропоновано максимізацію р-значення за довірчим інтервалом для параметра неприємності: див. Бергер (1996), "Більш потужні тести з інтервальних значень довіри", Американський статистик , 50 , 4; точні тести, що мають правильний розмір, можуть бути побудовані за допомогою цієї ідеї.

Точний тест Фішера також виникає як тест на рандомізацію, в розумінні Еддінгтона: випадкове призначення експериментальних методів лікування дозволяє розподілити тестову статистику за перестановками цих призначень, які будуть використані для перевірки нульової гіпотези. У такому підході визначення дами вважаються фіксованими (& гранична кількість чашок молока та чаю, звичайно, зберігається за допомогою перестановки).


Можна Barnard::barnardw.test()тут використовувати? Яку різницю в обчислювальній складності можна очікувати на практиці?
krlmlr

Я не знайомий з цим пакетом, але на сторінці довідки, на яку ви посилаєтесь на посилання, саме тест, про який я говорив. Дивіться також Exact. Щодо складності обчислень, я не знаю - це залежатиме від використовуваного алгоритму максимізації.
Scortchi

2

Сьогодні я прочитав перші глави "Проектування експериментів" Р. А. Фішера, і один з пунктів змусив мене зрозуміти принциповий недолік мого питання.

Тобто, навіть якщо дама справді може сказати різницю між чашками з молоком та чаю з першим чаєм , я ніколи не можу довести, що вона має таку здатність "шляхом будь-якої обмеженої кількості експериментів". З цієї причини, як експериментатор, я повинен почати з припущення, що у неї немає здібностей (нульова гіпотеза), і спробувати це не схвалити. І оригінальний дизайн експерименту (точний тест Фішера) є достатньою, ефективною і виправданою процедурою для цього.

Ось уривок із "Проектування експериментів" Р. А. Фішера:

Можна стверджувати, що якщо експеримент може спростувати гіпотезу про те, що суб'єкт не має сенсорної дискримінації між двома різними видами об'єктів, тому він повинен бути в змозі довести протилежну гіпотезу, що вона може зробити таку дискримінацію. Але ця остання гіпотеза, якою б вона була розумною чи правдивою, не підходить як нульова гіпотеза, яку слід перевірити експериментом, оскільки вона є неточною. Якби стверджувалося, що суб'єкт ніколи не помилиться в її судженнях, ми знову вважаємо, маємо точну гіпотезу, і легко зрозуміти, що цю гіпотезу можна спростувати одним провалом, але ніколи не може бути доведена будь-якою обмеженою кількістю експериментів .


1

Тест Барнард використовується, коли параметр неприємності невідомий під нульовою гіпотезою.

Однак у тесті дегустації леді ви можете стверджувати, що параметр неприємностей може бути встановлений у 0,5 під нульовою гіпотезою (необізнана дама має 50% ймовірності правильно відгадати чашку).

Тоді кількість правильних здогадок, під нульовою гіпотезою, набуває біноміального розподілу: відгадуючи 8 чашок з 50% ймовірністю для кожної чашки.


В інших випадках у вас може не виникнути такої тривіальної 50% ймовірності для нульової гіпотези. І без фіксованих запасів ви можете не знати, якою має бути така ймовірність. У такому випадку вам потрібен тест Барнарда.


Навіть якщо ви зробите тест Барнарда на тесті чаю з леді, вона все одно стане 50% (якщо результат є правильним здогадом), оскільки параметр неприємності з найвищим значенням p дорівнює 0,5 і призведе до тривіального біноміального тесту ( насправді це поєднання двох біноміальних тестів, одного для чотирьох перших чашок молока та одного для чотирьох перших чашок чаю).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Нижче - як би досягти складнішого результату (якщо не всі здогадки правильні, наприклад, 2 проти 4), то підрахунок того, що є, а що не є крайнім, стає дещо складнішим.

(Зауважте також, що тест Барнард використовує, у випадку результату 4-2, параметр неприємності p = 0,686, який ви можете стверджувати, що не є правильним, значення p для 50% ймовірності відповіді "чай першим" буде 0,08203125. Це стає ще менше, якщо розглядати інший регіон, а не той, який базується на статистиці Вальда, хоча визначити регіон не так просто )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.