Залишки Пірсона


16

Питання початківця щодо залишків Пірсона в контексті тесту чі-квадрата на придатність придатності:

Як і тестова статистика, chisq.testфункція R повідомляє про залишковий Пірсон:

(obs - exp) / sqrt(exp)

Я розумію, чому погляд на різну різницю між спостережуваними та очікуваними значеннями не є таким інформативним, оскільки менша вибірка призведе до меншої різниці. Однак я хотів би дізнатися більше про ефект знаменника: навіщо ділити на корінь очікуваного значення? Це "стандартизований" залишок?


6
Знаменник використовується для обліку дисперсії сировинних залишків, яка потім робить залишки Пірсона приблизно одиничною дисперсією (існують інші методи для досягнення цього). Зверніть увагу, що є компонент stdresдля стандартизованих залишків.
chl

@chl Дякую за швидку відповідь. Однак я не розумію концепцію дисперсії в цьому контексті. Чи знаєте ви якісь ресурси, де я міг би дізнатися більше? Я припускаю, що залишок Пірсона не «стандартизований», враховуючи, що він chisq.testтакож обчислює stdresкомпонент?
Ієн Діллінгем

3
Остаточне посилання на аналіз категоричних даних, мабуть, є категоричним аналізом даних , Алан Агресті. Якщо ніхто не надасть більш детальну відповідь, я спробую перетворити свої коментарі у правильну відповідь.
chl

Дякуємо за посилання, @chl. Я маю доступ до книги, тому спробую розібратися в цьому сам.
Ієн Діллінгем

Відповіді:


10

Стандартна статистична модель, що лежить в основі аналізу таблиць на випадок надзвичайних ситуацій, передбачає, що (безумовне від загального підрахунку) кількість комірок є незалежними випадковими змінними Пуассона. Отже, якщо у вас є n×m таблиця непередбачуваних ситуацій, статистична модель, яка використовується як основа для аналізу, приймає кожне число комірок для безумовного розподілу:

Xi,j ~ Pois(μi,j)

Після того, як ви накладете загальну кількість комірок для таблиці непередбачених ситуацій або кількість рядків або стовпців, отримані умовні розподіли підрахунків комірок стають мультиноміальними. У будь-якому випадку для розподілу Пуассона маємо E(Xi,j)=V(Xi,j)=μi,j , тому стандартизована кількість комірок:

STD(Xi,j)Xi,jE(Xi,j)V(Xi,j)=Xi,jμi,jμi,j

Отже, те, що ви бачите у формулі, про яку ви дізнаєтесь, - це стандартизоване число комірок, припускаючи, що кількість клітин має (безумовне) розподіл Пуассона.

Звідси прийнято перевіряти незалежність змінної рядків і стовпців у даних, і в цьому випадку ви можете використовувати тестову статистику, яка дивиться на суму квадратів вищевказаних значень (що еквівалентно нормі квадрата). вектора стандартизованих значень). Тест-ква-квадрат дає р-значення для цього виду тесту на основі наближення великої вибірки до нульового розподілу статистики тесту. Зазвичай він застосовується у випадках, коли жодна з кількості продажу не надто мала.


0

У контексті корисної форми можна звернутися до цього http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm .

Якщо ви хочете знати, як знаменник потрапив туди, вам доведеться розглядати чі-квадрат тут, як нормальне наближення до двочлена, для початківців, які потім можна поширити на багаточлени.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.