Чому тестування квадратних чі використовує очікуваний відлік як дисперсію?


18

В χ2 тестуванні, що основа для використання квадратного кореня з очікуваних відліків як стандартні відхилення (тобто очікуваних відліків в відхиленнях) кожен з нормальних розподілів? Єдине, про що я міг би взагалі обговорити це, це http://www.physics.csbsju.edu/stats/chi-square.html , і він просто згадує про розповсюдження Пуассона.

Як просту ілюстрацію моєї плутанини, що робити, якщо ми тестували, чи два процеси суттєво відрізняються: той, який генерує 500 As і 500 Bs з дуже невеликою дисперсією, а другий, який генерує 550 As і 450 Bs з дуже невеликою дисперсією (рідко генеруючий 551 Як і 449 Bs)? Невже розбіжність тут очевидно не просто очікуваного значення?

(Я не статистик, тому дійсно шукаю відповідь, доступну неспеціалісту.)


Це, мабуть, пов'язане з тим, що дисперсія випадкової величини χk2 дорівнює 2k а також з тим, що статистику потрібно помножити на 2, щоб мати правильний розподіл (як у тесті відношення ймовірності). Можливо, хтось про це знає формальніше.
Макрос

Відповіді:


16

Загальна форма для багатьох тестових статистичних даних є

observedexpectedstandarderror

У разі звичайної змінної стандартна помилка базується на відомій дисперсії сукупності (z-stats) або на оцінці з вибірки (t-stats). Для двочлена стандартна помилка базується на пропорції (гіпотезована пропорція для тестів).

У таблиці на випадок обліку в кожній комірці можна вважати таким, що відбувається з розподілу Пуассона із середнім значенням, рівним очікуваному значенню (під нулем). Дисперсія для розподілу Пуассона дорівнює середній величині, тому ми використовуємо очікуване значення і для стандартного розрахунку помилок. Я бачив статистику, яка натомість використовує спостережуване, але воно має менше теоретичного обгрунтування і не збігається також до розподілу χ2 .


1
Я застрягаю на зв'язку з Пуассоном / розумію, чому кожну клітинку можна вважати похідною від Пуассона. Я знаю середню / відмінність Пуассона, і я знаю, що вони представляють кількість подій із заданою ставкою. Я також знаю, що розподіли чі-квадратів представляють суму квадратів стандартних (дисперсія 1) нормалів. Я просто намагаюся обернути голову навколо обґрунтування повторного використання очікуваного значення як припущення про "поширення" кожної з норм. Це просто для того, щоб все відповідало розподілу чі-квадрата / "стандарту-ізе" нормалам?
Ян

3
Є кілька питань, розподіл Пуассона є загальним для підрахунків, коли справи досить незалежні. Замість того, щоб думати про те, що таблиця має фіксовану загальну суму, і ви розподіляєте значення між клітинками таблиці, подумайте лише про одну клітинку таблиці, і ви чекаєте фіксованого часу, щоб побачити, скільки відповідей потрапить у цю клітинку , це відповідає загальній ідеї Пуассона. Для великих засобів можна наблизити Пуассона з нормальним розподілом, тому статистика тесту має сенс як нормальне наближення до Пуассона, а потім перетворити на χ2 .
Грег Сног

1
(+1) Припустимо, кількість комірок Xi,,Xk були незалежними випадковими змінними Пуассона зі середнім nπi . Тоді, безумовно, i=1k(Xinπi)2nπiχk2 при розподілі. Але проблема в цьому полягає в тому, щоnєпараметром,а не фактичними спостережуваними підрахунками. Загальні спостережувані підрахунки -N=i=1kXiPoi(n). ХочаN/n1майже напевно є SLLN, ще потрібно виконати ще певну роботу, щоб перетворити евристику на щось працююче.
кардинал

Як просту ілюстрацію моєї плутанини, що робити, якщо ми тестували, чи два процеси суттєво відрізняються: той, який генерує 500 As і 500 Bs з дуже невеликою дисперсією, а другий, який генерує 550 As і 450 Bs з дуже невеликою дисперсією (рідко генеруючий 551 Як і 449 Bs)? Невже розбіжність тут очевидно не просто очікуваного значення?
Ян

1
@Yang: Це здається, що ваші дані --- яких ви не описали --- не відповідають моделі, що лежить в основі використання статистики хі-квадрата. Стандартна модель є однією з багаточленних вибірок . Власне кажучи, не охоплюється навіть (безумовна) вибірка Пуассона, що передбачає відповідь Грега. Я посилаюся на це (можливо, тупо) в цьому попередньому коментарі.
кардинал

17

Давайте розберемося з найпростішим випадком, щоб спробувати забезпечити максимальну інтуїцію. Нехай - iid вибірки з дискретного розподілу з k результатами. Нехай π 1 , , π k - ймовірності кожного конкретного результату. Нас цікавить (асимптотичний) розподіл хі-квадратної статистики X 2 = k i = 1 ( S i - n π iX1,X2,,Xnkπ1,,πk Тут n π i

X2=i=1k(Sinπi)2nπi.
nπi - очікувана кількість підрахунків го результату.i

Сугестивний евристичний

Визначте , так щоX2=iU 2 i =U 2 2, деU=(U1,,Uk).Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

Так як це Б я л ( п , π я ) , то в силу центральної граничної теореми , Т я = USiBin(n,πi) Отже, ми також маємощо, U я d N ( 0 , 1 - π я ) .

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

Now, if the Ti were (asymptotically) independent (which they aren't), then we could argue that iTi2 was asymptotically χk2 distributed. But, note that Tk is a deterministic function of (T1,,Tk1) and so the Ti variables can't possibly be independent.

Hence, we must take into account the covariance between them somehow. It turns out that the "correct" way to do this is to use the Ui instead, and the covariance between the components of U also changes the asymptotic distribution from what we might have thought was χk2 to what is, in fact, a χk12.

Some details on this follow.

A more rigorous treatment

It is not hard to check that, in fact, Cov(Ui,Uj)=πiπjij

U

A=IππT,
π=(π1,,πk)AA=A2=AT. So, in particular, if Z=(Z1,,Zk) has iid standard normal components, then AZN(0,A). (NB The multivariate normal distribution in this case is degenerate.)

Now, by the Multivariate Central Limit Theorem, the vector U has an asymptotic multivariate normal distribution with mean 0 and covariance A.

So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.

But, A is symmetric and idempotent, so (a) it has orthogonal eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c) the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.

Thus, ZTAZ must be χk12 distributed since A has rank k1 in our case.

Other connections

The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.

References

This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are

  1. G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
  2. E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
  3. D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.

(+1) I think it is hard to find this proof in standard categorical data analysis texts like Agresti, A. (2002). Categorical Data Analysis. John-Wiley.
suncoolsu

Thanks for the comment. I know there is some treatment of the chi-squared statistic in Agresti, but don't recall how far he takes it. He may just appeal to the asymptotic equivalence with the likelihood ratio statistic.
cardinal

Я не знаю, чи знайдете ви докази в будь-якому тексті. Я не бачив використання повної (виродженої) матриці коваріації та її властивостей в інших місцях. Звичайне лікування дивиться на (невироджене) розподіл першогок-1 координує, а потім використовує зворотну коваріаційну матрицю (яка має гарну форму, але таку, яка не відразу очевидна) та деяку (дещо) нудну алгебру для встановлення результату.
кардинал

Your answer begins by defining a set of X's but then defines the statistic in terms of S's. Can you include something in the answer that indicates how the variables you define at the start and the variables in the statistic are related?
Glen_b -Reinstate Monica
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.