Як статистична статистика Пірсона Chi наближає до розподілу квадрата Chi


10

Отже, якщо Статистика квадратиків Пірсона наведена для таблиці , то її форма така:1×N

i=1n(OiEi)2Ei

Тоді це наближає , розподіл Chi-квадрата з градусами свободи, оскільки розмір вибірки збільшується. n - 1 Nχn12n1N

Я не розумію, як працює це асимптотичне наближення. Я відчуваю, що в знаменниках слід замінити на . Оскільки це дасть вам , для . Але звичайно це має ступенів свободи, а не , тому явно щось інше відбувається.s 2 iEi χ 2 n = n i = 1 Z 2 i Zin(0,1)nn-1si2niχn2=i=1nZi2Zin(0,1)nn1


Хоча це не відповідає на ваше запитання , воно може пролити на нього трохи світла.
whuber

Відповіді:


11

Я збираюся це мотивувати інтуїтивно і зазначити, як це відбувається для особливого випадку двох груп, припускаючи, що ви раді прийняти нормальне наближення до двочленного.

Сподіваємось, цього вам буде достатньо, щоб ви добре зрозуміли, чому це працює так, як це робиться.

Ви говорите про тест на користь чі-квадратності. Скажімо, є груп (у вас це як , але є причина, яку я вважаю за краще називати ).n kknk

У моделі, що застосовується для даної ситуації, відліки , є багаточленними . я = 1 , 2 , . . . , кOii=1,2,...,k

Нехай . Підрахунки залежать від суми (крім деяких досить рідкісних ситуацій); і для кожної категорії існує певний набір імовірностей, , які дорівнюють . N p i , i = 1 , 2 , , k 1N=i=1kOiNpi,i=1,2,,k1

Так само, як і для двочлену, існує багатоасиміальне асимптотичне нормальне наближення - дійсно, якщо розглядати лише кількість у даній комірці ("у цій категорії" чи ні), то це було б двочленним. Так само, як і у двочленних, дисперсії відліків (як і їх коваріації у мультиноміалі) є функціями та 's; ви не оцінюєте дисперсію окремо.рNp

Тобто, якщо очікувані підрахунки достатньо великі, вектор підрахунків приблизно нормальний із середнім . Однак, оскільки підрахунки обумовлені , розподіл вироджується (він існує в гіперплощині розмірності , оскільки вказівка підрахунків фіксує решту). -коваріаційна матриця має діагональні записи та діагональні елементи , і вона займає ранг через виродження. N k - 1 k - 1 N p i ( 1 - p i ) - N p i p j k - 1Ei=NpiNk1k1Npi(1pi)Npipjk1

Як результат, для окремої комірки , і ви можете написати . Однак терміни залежать (негативно корелюють), тому, якщо підсумувати квадрати цих він не матиме розподілу (як це було б, якби вони були незалежними стандартизованими змінними). Натомість ми могли б побудувати набір незалежних змінних з вихідного які є незалежними та все ще приблизно нормальними (асимптотично нормальними). Якби ми підсумували їхні (стандартизовані) квадрати, отримали б . Існують способи побудови такого наборуz i = O i - E iVar(Oi)=Npi(1pi) ziχ2kk-1kχ2k-1k-1zi=OiEiEi(1pi)ziχk2k1kχk12k1 змінні явно, але, на щастя, є дуже акуратний ярлик, який дозволяє уникнути того, що становить значну кількість зусиль, і дає такий же результат (те саме значення статистики), як ніби ми пішли в проблему.

Розглянемо для простоти корисність з двома категоріями (яка зараз є двочленною). Ймовірність перебування в першій комірці дорівнює , а у другій клітині . У першій комірці спостерігаються спостережень, а в другій - .p 2 = 1 - p X = O 1 N - X = O 2p1=pp2=1pX=O1NX=O2

Спостережуване перше число комірок, - асимптотично . Ми можемо стандартизувати його як . Тоді приблизно (асимптотично ).N ( N p , N p ( 1 - p ) ) z = X - N pXN(Np,Np(1p)) z2=(X-Np)2z=XNpNp(1p)χ 2 1χ 2 1z2=(XNp)2Np(1p)χ12χ12

Зауважте це

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)] .

Але

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p) .

Отже що є ми почали з - яка асимптотика буде випадковою змінною . Залежність між двома клітинками така, що, занурившись на замість ми точно компенсуємо залежність між цими двома клітинами і отримуємо початкову випадкову величину площі-приблизно-нормальної. z2χ 2 1 EiEi(1-pi)i=12(OiEi)2Ei=(XNp)2Np(1p)z2χ12EiEi(1pi)

Один і той же вид залежності від суми береться за тим самим підходом, коли існує більше двох категорій - шляхом підсумовування замість над усіма доданками, ви точно компенсуєте ефект залежності і отримуєте суму, еквівалентну сумі незалежних норм. (Oi-Ei)2(OiEi)2Ei kk-1(OiEi)2Ei(1pi)kk1

Існує безліч способів показати, що статистика має розподіл, який асимптотично для більших (він охоплюється в деяких курсах студентської статистики, і його можна знайти в ряді текстів рівня бакалаврату), але я не хочу вести вас занадто далеко за рівень, який пропонує ваше запитання. Дійсно висновки легко знайти в примітках в Інтернеті, наприклад , існує два різних деривації в просторі близько двох сторінок тут кχk12k


Дякую, це має сенс. Це щось із математичного збігу / випадковості, що це виходить так гарно, що просто поділити на очікуване значення? чи є інтуїтивно зрозуміле статистичне пояснення, чому так має бути.
Thoth

Існує кілька пояснень, які можуть бути, а можуть і не бути інтуїтивними, залежно від речей, які різняться від людини до людини. Наприклад, якщо спостережувані підрахунки були спочатку незалежними змінними Пуассона, то дисперсія для насправді призвела б до поділу на (& Пуассон також є асимптотично нормальним). Якщо потім умовити загальну кількість (як вище), ви отримаєте багаточлен. Незалежно від того, вказуєте ви на загальну чи ні (тобто чи ставитесь ви до неї до Пуассона чи мультиноміальної), Оцінювач ML є однаковим, і тому дисперсія цього оцінювача однакова - ( E izEi
ctd

(ctd) ... Як результат, ви повинні розділити на і дисперсія повинна вийти точно правильно. [У вас ще є лише df.] k - 1Eik1
Glen_b -Встановіть Моніку

0

Рукопис на одній сторінці http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf, на який посилається користувач @Glen_b, в кінцевому підсумку показує, що статистику можна переписати як Hotelling з коваріаційним рангом = (див. рівняння 9.6). Тоді ми можемо використати класичний результат SJ Sepanski (1994), щоб отримати його асимптотичний розподіл у вигляді c-квадрата з ступенем свободи.T2k1k - 1k1

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.