Передумови: Пропустити безпечно - це тут для довідки та узаконити питання.
У відкритті цього документу написано:
"Знаменитий тест на випадок надзвичайної ситуації Карла Пірсона отриманий з іншої статистики, званої z статистикою z, заснованої на нормальному розподілі. Найпростіші версії можуть бути математично ідентичні еквівалентним z тестам. Тести дають той же результат за будь-яких обставин. Для всіх намірів і цілей «чі-квадрат» можна назвати «z-квадрат». Критичними значеннями для одного ступеня свободи є квадрат відповідних критичних значень z ».
Про це неодноразово стверджувалося в резюме ( тут , тут , тут та інших).
І справді ми можемо довести, що еквівалентноX2зX∼N(0,1):
Скажімо, що і що Y = X 2 і знайдемо щільність Y за допомогою методу c d f :
. Проблема полягає в тому, що ми не можемо в тісній формі інтегрувати щільність нормального розподілу. Але ми можемо це висловити:
Прийняття похідної:
Оскільки значення нормального є симетричними:
. Прирівнюючи це доpdfвід нормального (теперxуpdfбуде√ підключено доe - x 2 частина нормальноїpdf); і запам'ятовування в включити1 в кінці:
Порівняйте з pdf квадрата чі:
Так як , для1df ми отримали саме те квадрата chi.
Далі, якщо ми викликаємо функцію prop.test()
в R , ми викликаємо ту саму тест 2, як ніби ми вирішили.chisq.test()
ПИТАННЯ:
Тому я отримую всі ці моменти, але я досі не знаю, як вони застосовуються до фактичної реалізації цих двох тестів з двох причин:
Z-тест не має квадрата.
Фактична статистика тестів зовсім інша:
Значення тестової статистики для дорівнює:
де
= кумулятивна статистика Пірсона, яка асимптотично наближається дорозподілу χ 2 . O i = кількість спостережень типу i ; N = загальна кількість спостережень; E i = N p i = очікувана (теоретична) частота типу i , що стверджується нульовою гіпотезою, що частка типу i в сукупності становить p i ; n = кількість комірок у таблиці.
З іншого боку, тестова статистика для -test є:
зp=x1 , деx1іx2- кількість "успіхів", за кількістю предметів у кожному з рівнів категоричних змінних, тобтоn1іn2.
Ця формула, схоже, спирається на біноміальне розподіл.
Ці дві статистичні дані виразно відрізняються, і вони дають різні результати як для фактичної статистики тестів, так і для p- значень : 5.8481
для та z-тесту, де 2.4183 2 = 5.84817 (спасибі, @ mark999 ). Значення р- значення для тесту χ 2 є , а для z-тесту - . Різниця пояснюється двостулковим проти однохвостим : 0,01559 / 2 = 0,007795 (спасибі @amoeba).2.4183
0.01559
0.0077
Тож на якому рівні ми говоримо, що вони одне і те саме?
chisq.test()
, ви намагалися з допомогою correct=FALSE
?