На якому рівні тест


15

Передумови: Пропустити безпечно - це тут для довідки та узаконити питання.

У відкритті цього документу написано:

"Знаменитий тест на випадок надзвичайної ситуації Карла Пірсона отриманий з іншої статистики, званої z статистикою z, заснованої на нормальному розподілі. Найпростіші версії χ2 можуть бути математично ідентичні еквівалентним z тестам. Тести дають той же результат за будь-яких обставин. Для всіх намірів і цілей «чі-квадрат» можна назвати «z-квадрат». Критичними значеннями χ2 для одного ступеня свободи є квадрат відповідних критичних значень z ».

Про це неодноразово стверджувалося в резюме ( тут , тут , тут та інших).

І справді ми можемо довести, що еквівалентноX2зXN(0,1):χ1df2X2XN(0,1)

Скажімо, що і що Y = X 2 і знайдемо щільність Y за допомогою методу c d f :XN(0,1)Y=X2Ycdf

. Проблема полягає в тому, що ми не можемо в тісній формі інтегрувати щільність нормального розподілу. Але ми можемо це висловити:p(Yy)=p(X2y)=p(yxy)

Прийняття похідної:

FX(y)=FX(y)FX(y).

fX(y)=FX(y)12y+FX(y)12y.

Оскільки значення нормального є симетричними:pdf

. Прирівнюючи це доpdfвід нормального (теперxуpdfбудеfX(y)=FX(y)1ypdfxpdf підключено доe - x 2y частина нормальноїpdf); і запам'ятовування в включити1ex22pdf в кінці:1y

fX(y)=FX(y)1y=12πey21y=12πey2y121

Порівняйте з pdf квадрата чі:

fX(x)=12ν/2Γ(ν2)ex2xν21

Так як , для1df ми отримали саме теΓ(1/2)=π1 квадрата chi.pdf

Далі, якщо ми викликаємо функцію prop.test()в R , ми викликаємо ту саму тест 2, як ніби ми вирішили.χ2chisq.test()

ПИТАННЯ:

Тому я отримую всі ці моменти, але я досі не знаю, як вони застосовуються до фактичної реалізації цих двох тестів з двох причин:

  1. Z-тест не має квадрата.

  2. Фактична статистика тестів зовсім інша:

Значення тестової статистики для χ2 дорівнює:

χ2=i=1n(OiEi)2Ei=Ni=1npi(Oi/Npipi)2 де

= кумулятивна статистика Пірсона, яка асимптотично наближається дорозподілу χ 2 . O i = кількість спостережень типу i ; N = загальна кількість спостережень; E i = N p i = очікувана (теоретична) частота типу i , що стверджується нульовою гіпотезою, що частка типу i в сукупності становить p i ; n = кількість комірок у таблиці.χ2χ2OiiNEiNpiiipin

З іншого боку, тестова статистика для -test є:z

зp=x1Z=x1n1x2n2p(1p)(1/n1+1/n2) , деx1іx2- кількість "успіхів", за кількістю предметів у кожному з рівнів категоричних змінних, тобтоn1іn2.p=x1+x2n1+n2x1x2n1n2

Ця формула, схоже, спирається на біноміальне розподіл.

Ці дві статистичні дані виразно відрізняються, і вони дають різні результати як для фактичної статистики тестів, так і для p- значень : 5.8481для та z-тесту, де 2.4183 2 = 5.84817 (спасибі, @ mark999 ). Значення р- значення для тесту χ 2 є , а для z-тесту - . Різниця пояснюється двостулковим проти однохвостим : 0,01559 / 2 = 0,007795 (спасибі @amoeba).χ22.41832.41832=5.84817χ20.015590.00770.01559/2=0.007795

Тож на якому рівні ми говоримо, що вони одне і те саме?


Але це два однакові тести. Z квадрат - це статистика хі-квадрата. Нехай у вас є таблиця частот 2х2, де стовпці - це дві групи, а рядки - "успіх" і "провал". Тоді так звані очікувані частоти тесту чи-квадрата в даному стовпчику є зваженим (на групи N) середнім профілем стовпця (групи), помноженим на N. цієї групи. Таким чином, виходить, що квадрат-чі перевіряє відхилення кожен із двох профілів груп із цього середнього групового профілю, - що еквівалентно тестуванню різниці профілів груп один від одного, z-тесту пропорцій.
ttnphns

У прикладі на останньому гіперпосиланні майже є квадратом статистики z-тесту, але не зовсім, а значення p відрізняються. Крім того, коли ви дивитеся на формули для решти статистики вище, чи справді негайно вони однакові? Або навіть один квадрат іншого? χ2
Антоні Пареллада

2
В chisq.test(), ви намагалися з допомогою correct=FALSE?
mark999

1
Справді, Антоні. Обидва тести існують з або без Йейтса. Можливо, ви обчислите одне, а інше без нього?
ttnphns

1
Дякую! Ви були (передбачувано) правильні. Якщо виправлено поправку Йейтса, одне - це просто квадрат другого. Відповідно я відредагував це питання, хоча і трохи швидко. Я все-таки хотів би довести алгебраїчно, що обидві статистичні дані тесту однакові (або одна квадратика іншої), і зрозуміти, чому значення p відрізняються.
Антоні Пареллада

Відповіді:


12

Будемо мати таблицю частот 2х2, де стовпці складають дві групи респондентів, а рядки - це два відповіді "Так" і "Ні". І ми перетворили частоти в пропорції всередині групи, тобто у вертикальні профілі :

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

Звичайна (не виправлена ) χ 2 цієї таблиці, після того як ви заміните пропорції замість частот у її формулі, виглядає так:χ2

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2+n2(p2p)2pq.

Пам'ятайте, що , елемент середньозваженого профілю двох профіліві, і включіть його у формулу, щоб отриматиp=n1p1+n2p2n1+n2(p1,q1)(p2,q2)

...=(p1p2)2(n12n2+n1n22)pqN2

(n12n2+n1n22)

(p1p2)2pq(1/n1+1/n2)=Z2,

квадратична z-статистика z-тесту пропорцій для відповіді "Так".

Таким чином, 2x2статистика однорідності Chi-квадрата (і тест) еквівалентна z-тесту двох пропорцій. Так звані очікувані частоти, обчислені в тесті чи-квадрата в даному стовпчику, - це зважений (за групою n) середній вертикальний профіль (тобто профіль "середньої групи"), помножений на показник цієї групи n. Таким чином, виходить, що чи-квадрат випробовує відхилення кожної з двох груп профілів від цього середнього профілю групи, - що еквівалентно тестуванню різниці профілів груп один від одного, що є z-тестом пропорцій.

Це одна демонстрація зв'язку між мірою асоціації змінних (chi-квадрат) та мірою різниці груп (z-test test). Асоціації атрибутів та групові відмінності (часто) є двома гранями одного і того ж.


(Showing the expansion in the first line above, By @Antoni's request):

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2qpq+n1(q1q)2ppq+n2(p2p)2qpq+n2(q2q)2ppq=n1(p1p)2(1p)+n1(1p11+p)2p+n2(p2p)2(1p)+n2(1p21+p)2ppq=n1(p1p)2(1p)+n1(pp1)2p+n2(p2p)2(1p)+n2(pp2)2ppq=[n1(p1p)2][(1p)+p]+[n2(p2p)2][(1p)+p]pq=n1(p1p)2+n2(p2p)2pq.


@ttnphs This is great! Any chance you could clarify the intermediate step in the first equation (χ2) formula - I don't see how the q's go away after the equal sign.
Antoni Parellada

@ttnphs When I expand it I get n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(q(p2+p(2p12q1+p12)+p(q2+q12)pq)+n2(q(p2+p(2p22q2)+p22)+p(q2+q22)pq)
Antoni Parellada

@ttnphs ... Or some reference so it's less work to type the latex... And I'll promptly and happily 'accept' the answer...
Antoni Parellada

@Antoni, expansion inserted.
ttnphns

@ttnphns Awesome!
Antoni Parellada
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.