Точний тест Фішера та гіпергеометричне поширення


12

Я хотів краще зрозуміти точний тест Фішера, тому я розробив наступний іграшковий приклад, де f і m відповідає чоловічому та жіночому, а n і y відповідає такому "споживання соди", як це:

> soda_gender

    f m
  n 0 5
  y 5 0

Очевидно, це різке спрощення, але я не хотів, щоб контекст перешкоджав цьому. Тут я тільки припустив, що самці не п’ють соду, а жінки п’ють соду, і хотів дізнатися, чи приходять статистичні процедури до того ж висновку.

Коли я запускаю точний тест рибалки в R, я отримую такі результати:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0 

Тут, оскільки р-значення становить 0,007937, можна зробити висновок, що споживання та гендерна приналежність пов'язані між собою.

Я знаю, що точний тест Фішера пов'язаний з гіпергеометричним розподілом. Тому я хотів отримати подібні результати, використовуючи це. Іншими словами, ви можете розглянути цю проблему наступним чином: є 10 кульок, де 5 позначені як "чоловічі", а 5 - як "жіночі", а ви намалюєте 5 кульок випадковим чином без заміни, і ви бачите 0 чоловічих кульок . Який шанс цього спостереження? Щоб відповісти на це запитання, я використав таку команду:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

Мої запитання: 1) Як відрізняються два результати? 2) Чи є щось неправильне чи не суворе в моїх міркуваннях вище?

Відповіді:


10

Точний тест Фішера працює, встановлюючи розміри столу (у цьому випадку 5 чоловіків і жінок і 5 содових поїлок і непитущих). Згідно з припущеннями нульової гіпотези, вірогідність клітин для спостереження за чоловіком, що п'є соду, чоловіком, що не п'є соду, п'є соду або жінкою, що не пить соду, однаково вірогідна (0,25) через загальну суму запасу.

Конкретна таблиця, яку ви використовували для FET, не має таблиці, окрім її зворотного боку, 5 жінок, що не пили соду, та 5 сотевих алкоголіків, що під нульовою гіпотезою є "принаймні неправдоподібним". Таким чином, ви помітите, що подвоєння ймовірності, отриманої у вашій гіпергеометричній щільності, дає вам р-значення FET.


Нотатки Менг про phyper та fisher.test (які роблять те саме, але мають зовсім інший інтерфейс) дуже корисні: mengnote.blogspot.qa/2012/12/…
Aditya
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.