Дивний спосіб обчислення чи-квадрата в Excel проти R


9

Я дивлюся на лист Excel, який стверджує, що його обчислюють χ2, але я не визнаю такого способу цього, і мені було цікаво, чи я щось пропускаю.

Ось дані, які він аналізує:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

Ось такі суми, які вона робить для кожної групи, щоб обчислити чи квадрат:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Отже, для кожної групи є:χ2

2.822793
2.822793
1.759359
4.136448

А загальна хі - квадрат: 11.54139.

Однак кожен я бачив приклад обчислення абсолютно інший від цього. Я б робив для кожної групи:χ2

chiSq = (Observed-Expected)^2 / Expected

І тому для наведеного вище прикладу я отримав би загальне значення квадратних чі 11.3538.

Моє запитання - чому на аркуші excel вони обчислюють таким чином? Це визнаний підхід?χ2

ОНОВЛЕННЯ

Моя причина, коли я хочу це знати, полягає в тому, що я намагаюся повторити ці результати на мові R. Я використовую функцію chisq.test, і вона не виходить з тим же номером, що і на аркуші Excel. Тож якщо хтось знає, як зробити такий підхід в R, це було б дуже корисно!

ОНОВЛЕННЯ 2

Якщо когось цікавить, ось як я обчислив це в R:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)

Підхід у вашому другому оновлення має дати правильну статистику. Однак, якщо ваші очікування не базуються на сумі спостережуваного, у вас може виникнути проблема, оскільки значення p має на цьому умови. Однак я зауважую, що очікувані та спостережувані мають однаковий загальний (навряд чи це станеться випадково), тому це все, мабуть, добре. Ви могли зробити це легше таким чином:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b -Встановіть Моніку

@Glen_b У листі Excel я вважаю, що очікувані показники відпрацьовуються, виконуючи загальну кількість населення * значення 'P', яке я опрацював вище. Це буде проблемою? Також загальна чисельність населення різниться - більшість часу це 2000, але насправді це може бути будь-яка кількість. Аркуш Excel, який я намагаюсь відтворити тут, насправді не враховує значення p, тому якщо на статистику це не вплине, можливо, це не проблема ...
user1578653

Питання зводиться до того, звідки беруться р. Вони передбачають перегляд загальної кількості спостережуваних?
Glen_b -Встановіть Моніку

Добре мені це схоже на ПС, і тому очікуване базується як на загальній кількості спостережуваних, так і на загальній чисельності населення ... Однак у всіх прикладах, які мені подано на аркуші Excel, очікуване значення також здається відповідним загальна кількість спостережених / кількість підрахунків.
користувач1578653

Якщо п-во базується таким чином, то очікування випливають. Якщо це так, схоже, що ступінь свободи і так далі - це добре, як ви це зробили в R - але кілька слів мого пояснення можуть знадобитися змінити.
Glen_b -Встановити Моніку

Відповіді:


13

Це виявляється досить відвертим.

Це явно біноміальна вибірка. Є два способи на це подивитися.

Метод 1 - метод електронної таблиці, для обліку спостережуваних підрахунків Хi як Урни(Ni,pi), що може бути приблизно N(мкi=Nipi,σi2=Nipi(1-pi)). Як такий,Zi=(Хi-мкi)/σi є приблизно стандартними нормальними, і Zє незалежними, тому (приблизно) iZi2χ2.

(Якщо p засновані на спостережених підрахунках, то Zвони не є незалежними, але це все ще хі-квадрат з меншою мірою свободи.)

Спосіб 2: ваше використання (О-Е)2/ЕФорма чі-квадрата також працює, але вона вимагає, щоб ви враховували не лише ті категорії, які ви позначили як "Спостерігали", але й ті, які не в цій категорії:

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

Де Едля першого стовпця такі, як у вас, а другі для другого стовпця Ni(1-pi)

... а потім суму (О-Е)2/Е над обома стовпцями.

Дві форми є алгебраїчно рівнозначними. Зауважте, що 1/p+1/(1-p)=1/p(1-p). Розглянемо iтгод ряд чі-квадрата:

(Хi-мкi)2σi2=(Хi-Nipi)2Nipi(1-pi)=(Хi-Nipi)2Nipi+(Хi-Nipi)2Ni(1-pi)=(Хi-Nipi)2Nipi+(Ni-Ni+Nipi-Хi)2Ni(1-pi)=(Хi-Nipi)2Nipi+(Ni-Хi-(Ni-Nipi))2Ni(1-pi)=(Хi-Nipi)2Nipi+((Ni-Хi)-Ni(1-pi))2Ni(1-pi)=(Оi(А)-Еi(А))2Еi(А)+(Оi(А¯)-Еi(А¯))2Еi(А¯)

Що означає, що ви повинні отримувати однакову відповідь обома способами, аж до помилки округлення.

Подивимось:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

Чі-квадрат = 11,353846 + 0,187548 = 11,54139

Що відповідає їхній відповіді.


1
Спасибі за вашу допомогу! Я не математик / статистик, тому це спочатку мене бентежило, але ваше пояснення дуже легко зрозуміти.
користувач1578653
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.