У мене є три групи даних, кожна з біноміальним розподілом (тобто кожна група має елементи, що мають успіх чи невдачу). У мене немає передбачуваної ймовірності успіху, але натомість я можу розраховувати лише на рівень успішності кожного як наближення до справжнього показника успіху. Я лише знайшов це питання , яке є близьким, але, схоже, не відповідає саме цьому сценарію.
Щоб спростити тест, скажімо, що у мене є 2 групи (3 можна розширити з цього базового випадку).
- Випробування групи 1: = 2455
- Випробування групи 2: = 2730
- Успіх 1 групи: = 1556
- Успіх 2 групи: = 1671
Я не маю очікуваної ймовірності успіху, лише те, що я знаю з зразків. Тож мій мається на увазі рівень успішності для двох груп:
- Коефіцієнт успішності 1 групи: = 1556/2455 = 63,4%
- Коефіцієнт успішності 2 групи: = 1671/2730 = 61,2%
Коефіцієнт успішності кожного зразка досить близький. Однак розміри моїх зразків також досить великі. Якщо я перевіряю CDF біноміального розподілу, щоб побачити, наскільки він відрізняється від першого (де я припускаю, що перший є нульовим тестом), я отримую дуже малу ймовірність того, що другого вдасться досягти.
В Excel:
1-BINOM.DIST (1556,2455,61,2%, ІСТИНА) = 0,012
Однак це не враховує жодної дисперсії першого результату, вона просто передбачає, що перший результат - це ймовірність тесту.
Чи є кращий спосіб перевірити, чи справді ці два зразки даних статистично відрізняються один від одного?
prop.test
: prop.test(c(1556, 1671), c(2455, 2730))
.