Я дивлюся на лист Excel, який стверджує, що його обчислюють , але я не визнаю такого способу цього, і мені було цікаво, чи я щось пропускаю.
Ось дані, які він аналізує:
+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
| 2000 | 42 | 32.5 |
| 2000 | 42 | 32.5 |
| 2000 | 25 | 32.5 |
| 2000 | 21 | 32.5 |
+------------------+----------+----------+
Ось такі суми, які вона робить для кожної групи, щоб обчислити чи квадрат:
P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B
Отже, для кожної групи є:
2.822793
2.822793
1.759359
4.136448
А загальна хі - квадрат: 11.54139
.
Однак кожен я бачив приклад обчислення абсолютно інший від цього. Я б робив для кожної групи:
chiSq = (Observed-Expected)^2 / Expected
І тому для наведеного вище прикладу я отримав би загальне значення квадратних чі 11.3538
.
Моє запитання - чому на аркуші excel вони обчислюють таким чином? Це визнаний підхід?
ОНОВЛЕННЯ
Моя причина, коли я хочу це знати, полягає в тому, що я намагаюся повторити ці результати на мові R. Я використовую функцію chisq.test, і вона не виходить з тим же номером, що і на аркуші Excel. Тож якщо хтось знає, як зробити такий підхід в R, це було б дуже корисно!
ОНОВЛЕННЯ 2
Якщо когось цікавить, ось як я обчислив це в R:
res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
x=c(42,42,25,21);chisq.test(cbind(x,2000-x))