Чому тестування квадратних чі використовує очікуваний відлік як дисперсію?

В $\chi^2$ тестуванні, що основа для використання квадратного кореня з очікуваних відліків як стандартні відхилення (тобто очікуваних відліків в відхиленнях) кожен з нормальних розподілів? Єдине, про що я міг би взагалі обговорити це, це http://www.physics.csbsju.edu/stats/chi-square.html , і він просто згадує про розповсюдження Пуассона.

Як просту ілюстрацію моєї плутанини, що робити, якщо ми тестували, чи два процеси суттєво відрізняються: той, який генерує 500 As і 500 Bs з дуже невеликою дисперсією, а другий, який генерує 550 As і 450 Bs з дуже невеликою дисперсією (рідко генеруючий 551 Як і 449 Bs)? Невже розбіжність тут очевидно не просто очікуваного значення?

(Я не статистик, тому дійсно шукаю відповідь, доступну неспеціалісту.)

hypothesis-testing chi-squared

— Ян
джерело

Це, мабуть, пов'язане з тим, що дисперсія випадкової величини

χ_{k}^{2}

$\chi^{2}_{k}$ дорівнює

2 k

$2k$ а також з тим, що статистику потрібно помножити на 2, щоб мати правильний розподіл (як у тесті відношення ймовірності). Можливо, хтось про це знає формальніше.

— Макрос

Відповіді:

Загальна форма для багатьох тестових статистичних даних є

$\frac{observed - expected}{standard error}$

У разі звичайної змінної стандартна помилка базується на відомій дисперсії сукупності (z-stats) або на оцінці з вибірки (t-stats). Для двочлена стандартна помилка базується на пропорції (гіпотезована пропорція для тестів).

У таблиці на випадок обліку в кожній комірці можна вважати таким, що відбувається з розподілу Пуассона із середнім значенням, рівним очікуваному значенню (під нулем). Дисперсія для розподілу Пуассона дорівнює середній величині, тому ми використовуємо очікуване значення і для стандартного розрахунку помилок. Я бачив статистику, яка натомість використовує спостережуване, але воно має менше теоретичного обгрунтування і не збігається також до розподілу $\chi^2$ .

— Грег Сніг
джерело

Я застрягаю на зв'язку з Пуассоном / розумію, чому кожну клітинку можна вважати похідною від Пуассона. Я знаю середню / відмінність Пуассона, і я знаю, що вони представляють кількість подій із заданою ставкою. Я також знаю, що розподіли чі-квадратів представляють суму квадратів стандартних (дисперсія 1) нормалів. Я просто намагаюся обернути голову навколо обґрунтування повторного використання очікуваного значення як припущення про "поширення" кожної з норм. Це просто для того, щоб все відповідало розподілу чі-квадрата / "стандарту-ізе" нормалам?

— Ян

Є кілька питань, розподіл Пуассона є загальним для підрахунків, коли справи досить незалежні. Замість того, щоб думати про те, що таблиця має фіксовану загальну суму, і ви розподіляєте значення між клітинками таблиці, подумайте лише про одну клітинку таблиці, і ви чекаєте фіксованого часу, щоб побачити, скільки відповідей потрапить у цю клітинку , це відповідає загальній ідеї Пуассона. Для великих засобів можна наблизити Пуассона з нормальним розподілом, тому статистика тесту має сенс як нормальне наближення до Пуассона, а потім перетворити на

χ^{2}

$\chi^2$ .

— Грег Сног

(+1) Припустимо, кількість комірок

X_{i}, \dots, X_{k}

$X_i,\ldots,X_k$ були незалежними випадковими змінними Пуассона зі середнім

n π_{i}

$n\pi_i$ . Тоді, безумовно,

\sum_{i = 1}^{k} \frac{(X_{i} - n π_{i})^{2}}{n π_{i}} \to χ_{k}^{2}

$\sum_{i=1}^k \frac{(X_i - n\pi_i)^2}{n \pi_i} \to \chi_k^2$ при розподілі. Але проблема в цьому полягає в тому, що

n

$n$ єпараметром,а не фактичними спостережуваними підрахунками. Загальні спостережувані підрахунки -

N = \sum_{i = 1}^{k} X_{i} \sim P o i (n)

$N = \sum_{i=1}^k X_i \sim \mathrm{Poi}(n)$ . Хоча

N / n \to 1

$N/n \to 1$ майже напевно є SLLN, ще потрібно виконати ще певну роботу, щоб перетворити евристику на щось працююче.

— кардинал

— Ян

@Yang: Це здається, що ваші дані --- яких ви не описали --- не відповідають моделі, що лежить в основі використання статистики хі-квадрата. Стандартна модель є однією з багаточленних вибірок . Власне кажучи, не охоплюється навіть (безумовна) вибірка Пуассона, що передбачає відповідь Грега. Я посилаюся на це (можливо, тупо) в цьому попередньому коментарі.

— кардинал

Давайте розберемося з найпростішим випадком, щоб спробувати забезпечити максимальну інтуїцію. Нехай - iid вибірки з дискретного розподілу з результатами. Нехай - ймовірності кожного конкретного результату. Нас цікавить (асимптотичний) розподіл хі-квадратної статистики $X_1, X_2, \ldots, X_n$ $k$ $\pi_1,\ldots,\pi_k$ Тут

X^{2} = \sum_{i = 1}^{k} \frac{(S_{i} - n π_{i})^{2}}{n π_{i}} .

$X^2 = \sum_{i=1}^k \frac{(S_i - n \pi_i)^2}{n\pi_i} \> .$

n π_{i}

$n \pi_i$ - очікувана кількість підрахунків

го результату.

i

$i$

Сугестивний евристичний

Визначте , так що де. $U_i = (S_i - n\pi_i) / \sqrt{n \pi_i}$ $X^2 = \sum_i U_i^2 = \newcommand{\U}{\mathbf{U}}\|\U\|^2_2$ $\U = (U_1,\ldots,U_k)$

Так як це , то в силу центральної граничної теореми , $S_i$ $\mathrm{Bin}(n,\pi_i)$ Отже, ми також маємощо, .

T_{i} = \frac{U_{i}}{\sqrt{1 - π_{i}}} = \frac{S_{i} - n π_{i}}{\sqrt{n π_{i} (1 - π_{i})}} \overset{d}{\to} N (0, 1),

$\newcommand{\convd}{\xrightarrow{d}}\newcommand{\N}{\mathcal{N}} T_i = \frac{U_i}{\sqrt{1-\pi_i}} = \frac{S_i - n \pi_i}{\sqrt{ n\pi_i(1-\pi_i)}} \convd \N(0, 1) \>,$

U_{i} \overset{d}{\to} N (0, 1 - π_{i})

$U_i \convd \N(0, 1-\pi_i)$

Now, if the $T_i$ were (asymptotically) independent (which they aren't), then we could argue that $\sum_i T_i^2$ was asymptotically $\chi_k^2$ distributed. But, note that $T_k$ is a deterministic function of $(T_1,\ldots,T_{k-1})$ and so the $T_i$ variables can't possibly be independent.

Hence, we must take into account the covariance between them somehow. It turns out that the "correct" way to do this is to use the $U_i$ instead, and the covariance between the components of $\U$ also changes the asymptotic distribution from what we might have thought was $\chi_{k}^2$ to what is, in fact, a $\chi_{k-1}^2$ .

Some details on this follow.

A more rigorous treatment

It is not hard to check that, in fact, $\newcommand{\Cov}{\mathrm{Cov}}\Cov(U_i, U_j) = - \sqrt{\pi_i \pi_j}$ $i \neq j$

$\U$

A = I - \sqrt{π} {\sqrt{π}}^{T},

$\newcommand{\sqpi}{\sqrt{\boldsymbol{\pi}}} \newcommand{\A}{\mathbf{A}} \A = \mathbf{I} - \sqpi \sqpi^T \>,$

\sqrt{π} = (\sqrt{π_{1}}, \dots, \sqrt{π_{k}})

$\sqpi = (\sqrt{\pi_1}, \ldots, \sqrt{\pi_k})$

A

$\A$

A = A^{2} = A^{T}

$\A = \A^2 = \A^T$ . So, in particular, if

Z = (Z_{1}, \dots, Z_{k})

$\newcommand{\Z}{\mathbf{Z}}\Z = (Z_1, \ldots, Z_k)$ has iid standard normal components, then

A Z \sim N (0, A)

$\A \Z \sim \N(0, \A)$ . (NB The multivariate normal distribution in this case is degenerate.)

Now, by the Multivariate Central Limit Theorem, the vector $\U$ has an asymptotic multivariate normal distribution with mean $0$ and covariance $\A$ .

So, $\U$ has the same asymptotic distribution as $\A \Z$ , hence, the same asymptotic distribution of $X^2 = \U^T \U$ is the same as the distribution of $\Z^T \A^T \A \Z = \Z^T \A \Z$ by the continuous mapping theorem.

But, $\A$ is symmetric and idempotent, so (a) it has orthogonal eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c) the multiplicity of the eigenvalue of 1 is $\mathrm{rank}(\A)$ . This means that $\A$ can be decomposed as $\A = \mathbf{Q D Q}^T$ where $\mathbf{Q}$ is orthogonal and $\mathbf{D}$ is a diagonal matrix with $\mathrm{rank}(\A)$ ones on the diagonal and the remaining diagonal entries being zero.

Thus, $\Z^T \A \Z$ must be $\chi^2_{k-1}$ distributed since $\A$ has rank $k-1$ in our case.

Other connections

The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.

References

This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are

G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.

— cardinal
джерело

(+1) I think it is hard to find this proof in standard categorical data analysis texts like Agresti, A. (2002). Categorical Data Analysis. John-Wiley.

— suncoolsu

Thanks for the comment. I know there is some treatment of the chi-squared statistic in Agresti, but don't recall how far he takes it. He may just appeal to the asymptotic equivalence with the likelihood ratio statistic.

— cardinal

Я не знаю, чи знайдете ви докази в будь-якому тексті. Я не бачив використання повної (виродженої) матриці коваріації та її властивостей в інших місцях. Звичайне лікування дивиться на (невироджене) розподіл першого

k - 1

$k-1$ координує, а потім використовує зворотну коваріаційну матрицю (яка має гарну форму, але таку, яка не відразу очевидна) та деяку (дещо) нудну алгебру для встановлення результату.

— кардинал

Your answer begins by defining a set of

X

$X$ 's but then defines the statistic in terms of

S

$S$ 's. Can you include something in the answer that indicates how the variables you define at the start and the variables in the statistic are related?

— Glen_b -Reinstate Monica