Я збираюся це мотивувати інтуїтивно і зазначити, як це відбувається для особливого випадку двох груп, припускаючи, що ви раді прийняти нормальне наближення до двочленного.
Сподіваємось, цього вам буде достатньо, щоб ви добре зрозуміли, чому це працює так, як це робиться.
Ви говорите про тест на користь чі-квадратності. Скажімо, є груп (у вас це як , але є причина, яку я вважаю за краще називати ).n kknk
У моделі, що застосовується для даної ситуації, відліки , є багаточленними . я = 1 , 2 , . . . , кOii=1,2,...,k
Нехай . Підрахунки залежать від суми (крім деяких досить рідкісних ситуацій); і для кожної категорії існує певний набір імовірностей, , які дорівнюють . N p i , i = 1 , 2 , … , k 1N=∑ki=1OiNpi,i=1,2,…,k1
Так само, як і для двочлену, існує багатоасиміальне асимптотичне нормальне наближення - дійсно, якщо розглядати лише кількість у даній комірці ("у цій категорії" чи ні), то це було б двочленним. Так само, як і у двочленних, дисперсії відліків (як і їх коваріації у мультиноміалі) є функціями та 's; ви не оцінюєте дисперсію окремо.рNp
Тобто, якщо очікувані підрахунки достатньо великі, вектор підрахунків приблизно нормальний із середнім . Однак, оскільки підрахунки обумовлені , розподіл вироджується (він існує в гіперплощині розмірності , оскільки вказівка підрахунків фіксує решту). -коваріаційна матриця має діагональні записи та діагональні елементи , і вона займає ранг через виродження. N k - 1 k - 1 N p i ( 1 - p i ) - N p i p j k - 1Ei=NpiNk−1k−1Npi(1−pi)−Npipjk−1
Як результат, для окремої комірки , і ви можете написати . Однак терміни залежать (негативно корелюють), тому, якщо підсумувати квадрати цих він не матиме розподілу (як це було б, якби вони були незалежними стандартизованими змінними). Натомість ми могли б побудувати набір незалежних змінних з вихідного які є незалежними та все ще приблизно нормальними (асимптотично нормальними). Якби ми підсумували їхні (стандартизовані) квадрати, отримали б . Існують способи побудови такого наборуz i = O i - E iVar(Oi)=Npi(1−pi) ziχ2kk-1kχ2k-1k-1zi=Oi−EiEi(1−pi)√ziχ2kk−1kχ2k−1k−1 змінні явно, але, на щастя, є дуже акуратний ярлик, який дозволяє уникнути того, що становить значну кількість зусиль, і дає такий же результат (те саме значення статистики), як ніби ми пішли в проблему.
Розглянемо для простоти корисність з двома категоріями (яка зараз є двочленною). Ймовірність перебування в першій комірці дорівнює , а у другій клітині . У першій комірці спостерігаються спостережень, а в другій - .p 2 = 1 - p X = O 1 N - X = O 2p1=pp2=1−pX=O1N−X=O2
Спостережуване перше число комірок, - асимптотично . Ми можемо стандартизувати його як . Тоді приблизно (асимптотично ).N ( N p , N p ( 1 - p ) ) z = X - N pXN(Np,Np(1−p)) z2=(X-Np)2z=X−NpNp(1−p)√ ∼χ 2 1 ∼χ 2 1z2=(X−Np)2Np(1−p)∼χ21∼χ21
Зауважте це
∑2i=1(Oi−Ei)2Ei=[X−Np]2Np+[(N−X)−(N−Np)]2N(1−p)=[X−Np]2Np+[X−Np]2N(1−p)=(X−Np)2[1Np+1N(1−p)] .
Але
1Np+1N(1−p)=Np+N(1−p)Np.N(1−p)=1Np(1−p) .
Отже що є ми почали з - яка асимптотика буде випадковою змінною . Залежність між двома клітинками така, що, занурившись на замість ми точно компенсуємо залежність між цими двома клітинами і отримуємо початкову випадкову величину площі-приблизно-нормальної. z2χ 2 1 EiEi(1-pi)∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p)z2χ21EiEi(1−pi)
Один і той же вид залежності від суми береться за тим самим підходом, коли існує більше двох категорій - шляхом підсумовування замість над усіма доданками, ви точно компенсуєте ефект залежності і отримуєте суму, еквівалентну сумі незалежних норм. (Oi-Ei)2(Oi−Ei)2Ei kk-1(Oi−Ei)2Ei(1−pi)kk−1
Існує безліч способів показати, що статистика має розподіл, який асимптотично для більших (він охоплюється в деяких курсах студентської статистики, і його можна знайти в ряді текстів рівня бакалаврату), але я не хочу вести вас занадто далеко за рівень, який пропонує ваше запитання. Дійсно висновки легко знайти в примітках в Інтернеті, наприклад , існує два різних деривації в просторі близько двох сторінок тут кχ2k−1k