Чому для перевірки незалежності використовується розподіл chi-квадрата?


12

благість-оф-придатний тест використовує наступну статистику : У тесті, враховуючи , що умови виконані, як використовуються - розподіл для обчислення р-значення, враховуючи правда можна було б спостерігати таке значення в репрезентативній вибірці одного і того ж розміру.χ 2 0 = n i = 1 ( O i - E i ) 2χ2

χ02=i=1n(OiEi)2Ei
χ2H0

Однак для того, щоб статистика χ02 слідувала за χ2n1 ступенями свободи), повинно бути правдою, що:

i=1n(OiEi)2Ei=i=1n1Zi2
для незалежних, стандартних нормальних Zi ( Вікіпедія ). Умови тесту такі (знову ж таки, з Вікіпедії ):
  1. Зразок представника населення
  2. Великий розмір зразка
  3. Очікувана кількість клітин досить велика
  4. Незалежність між кожною категорією

З умов (1,2) видно, що ми задовольняємо умовам для виведення з вибірки до сукупності. (3), здається, потрібне припущення, оскільки дискретний підрахунок Ei , який знаходиться в знаменнику, не призводить до майже безперервного розподілу для кожного Zi і якщо він недостатньо великий, виникає помилка, яку можна виправити за допомогою Yates «виправлення - це, мабуть, пов’язано з тим, що дискретний розподіл є в основному безперервним« поворотним », тому зсув на 1/2 для кожного виправляє це.

Здається, необхідність (4) пізніше стане в нагоді, але я не можу зрозуміти як.

Спочатку я подумав, що необхідний, щоб статистика відповідала розподілу. Це мене до сумнівного припущення, що , що було дійсно неправильним. Насправді, із зменшення розмірності для двох сторін рівності від до , це не може бути так. Oi-EiN(0,Zi=OiEiEinn-1OiEiN(0,Ei)nn1

Завдяки поясненням стало очевидним, що не потрібно дорівнювати кожному оскільки (відзначимо зменшення кількості підсумованих змінних) для стандартних нормальних випадкових величин які функціонально незалежні.O i - E iZi χ20=n-1i=1Z2iZiOiEiEiχ02=i=1n1Zi2Zi

моє запитання : як може слідувати розподілу ? Які види комбінацій кожного з доданків призводять до квадратних стандартних нормалей ? Це вимагає використання CLT, мабуть (і це має сенс), але як? Іншими словами , чому кожен дорівнює (або приблизно дорівнює)? χ 2 ( O i - E i ) 2χ02χ2 Z 2 i Zi(OiEi)2EiZi2Zi


1
Мені цікаво, де ви читаєте, що хтось припускає останнє, що ви сказали ( ). Це не обов'язково: статистика може мати розподіл (принаймні, до надзвичайно хорошого наближення) без жодного з цих стандартизованих залишків, що мають нормальний розподіл. Питання , який ви , здається, хочуть , щоб запитати, як виправдати ці припущення відсилаючи статистики до розподілу? Самі по собі вони цього не роблять. Для обговорення того, що може піти не так, перегляньте мій пост на сайті stats.stackexchange.com/a/17148 . χ2χ2χ2χ2OiEiN(0,Ei)χ2χ2χ2χ2
качан

1
З рівності двох сум квадратів ви не можете зробити висновок, що квадратні корені є рівними по терміну! Оскільки це стосується простих чисел, то, безумовно, це стосується і випадкових змінних.
whuber

1
Для того, щоб зробити цей бетон, припустимо , що є незалежно один від одного розподілені з розподілів , що мають ступенів свободи і що але для всіх . Тоді хоча жоден з є нормальним, проте має . χ ν 1 , ν 2 , , ν n ν 1 + ν 2 + + ν n = n - 1 ν i1 i W i n i = 1 W 2 i χ 2 ( n - 1 )(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
whuber

1
Якщо під "квадратним нормальним нормальним" ви маєте на увазі "суму незалежних стандартних стандартних норм", це питання, я вважаю, що ви справді хотіли поставити на початку :-). І врешті-решт, більшість аналізів ситуації справді посилається на теорему про центральний межа, щоб довести, що стандартизовані залишки асимптотично є нормальними нормальними (але не зовсім незалежними, через що ступеня свободи а не ). nn1n
whuber

1
+1, за те, що я передбачаю, незабаром буде дуже хорошим питанням. Перша проблема - тест на незалежність не використовує заявлену статистику. Статистичні дані, наведені на старті, є одновимірними (сума понад категорій), тоді як тест незалежності вимагає більше однієї змінної. Будь ласка, відредагуйте, щоб внести назву тесту та відповідати статистиці. n
Glen_b -Встановіть Моніку

Відповіді:


6

Йдеться про розподіл Пуассона. Якщо - Пуассон із середнім , то і дисперсія від - . Це означає, що є подібною сутністю. За CLT, Пуассон прагне до нормальності, оскільки середня величина стає великою, і саме там потрапляє чі-квадрат. Так, це асимптотичний тест.λ X λ ( X - λ ) 2XλXλ z2

(Xλ)2λ
z2

Ступені свободи походять від теореми Кокрана. В основному, Кокран пояснює, як Chi-квадрат трансформується (або залишається незмінним), підлягаючи лінійному перетворенню в балах.z2

izi2=ZIZ

в матричному позначенні. Якщо замість обчислення звичайну суму квадратів, ви обчислюєте для деякої матриці Q, то ви все одно отримаєте величину з аа розподілу хі-квадрат, але ступеня свободи тепер ранг . У матриці Q є більше умов, але це суть її.Q

ZQZ
Q

Якщо ви з деякими позначеннями матриць, ви можете виразити як квадратичну форму. Cochran передбачає незалежність від початкових нормальних змінних, і тому стовпці вашої лічильної таблиці також повинні бути незалежними.

i(ziz¯)2

Вибачте, але ви точно втратили мене в "Якщо замість цього, ви зробите ..."
VF1,

@ VF1, я вніс зміни, тож сподіваюся, що це буде більш зрозуміло. Теорема Кокрана - це відповідь на ваше запитання про те, коли сума квадратів з нормалами в ній має розподіл chi-квадрата.
Placidia

1
Добре, я погляну на це. Залишаю питання відкритим, однак, якщо хтось ще щось додасть.
VF1

1
Зазвичай розмір вибірки фіксується. Це означає, що неможливо, щоб будь-яка з записів могла слідувати розподілу Пуассона. Звернення до розповсюдження Пуассона, схоже, це лише чергове наближення - і, здається, залишає нас саме там, де ми почали.
whuber

1

Відповідно до підручника "Вступна статистика з рандомізацією та моделюванням", розділ 3.3.2 (підручник, вільно доступний у OpenIntro ), статистика тесту намагається акумулювати відхилення спостережуваних від очікуваних. І відхилення справді виражаються через термінχ2

Zi=OiEiEi

яка фактично походить від .

OiEi(StandardErrorOfTheObserved)

У підручнику йдеться про те, що краще оцінюється через , тому термін стає . Навчальний посібник насправді не пояснює, чому така заміна є прийнятною, і я також хотів би це з'ясувати.(StandardErrorOfTheObserved)EiZi=OiEiEi

У будь-якому випадку, ви можете створити тестову статистику форми

Z=|Z1|+|Z2|+|Z3|+...

χ2=Z12+Z22+Z32+...

χ2χ2

χ2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.