Я хотів краще зрозуміти точний тест Фішера, тому я розробив наступний іграшковий приклад, де f і m відповідає чоловічому та жіночому, а n і y відповідає такому "споживання соди", як це:
> soda_gender
f m
n 0 5
y 5 0
Очевидно, це різке спрощення, але я не хотів, щоб контекст перешкоджав цьому. Тут я тільки припустив, що самці не п’ють соду, а жінки п’ють соду, і хотів дізнатися, чи приходять статистичні процедури до того ж висновку.
Коли я запускаю точний тест рибалки в R, я отримую такі результати:
> fisher.test(soda_gender)
Fisher's Exact Test for Count Data
data: soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.0000000 0.4353226
sample estimates:
odds ratio
0
Тут, оскільки р-значення становить 0,007937, можна зробити висновок, що споживання та гендерна приналежність пов'язані між собою.
Я знаю, що точний тест Фішера пов'язаний з гіпергеометричним розподілом. Тому я хотів отримати подібні результати, використовуючи це. Іншими словами, ви можете розглянути цю проблему наступним чином: є 10 кульок, де 5 позначені як "чоловічі", а 5 - як "жіночі", а ви намалюєте 5 кульок випадковим чином без заміни, і ви бачите 0 чоловічих кульок . Який шанс цього спостереження? Щоб відповісти на це запитання, я використав таку команду:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254
Мої запитання: 1) Як відрізняються два результати? 2) Чи є щось неправильне чи не суворе в моїх міркуваннях вище?