Чому квадрат chi використовується при створенні інтервалу довіри для дисперсії?


15

Це дуже основне питання. Чому ми використовуємо розподіл квадратних чі? У чому сенс цього розподілу? Чому саме цей розподіл використовується для створення довірчого інтервалу для дисперсії?

Кожне місце, де я шукаю Google для пояснення, просто представляє це факт, пояснюючи, коли потрібно використовувати чі, але не пояснюючи, чому потрібно використовувати чі, і чому це виглядає так, як це робиться.

Дякую всім, хто може вказати мені на правильний напрямок, і це - справді розуміючи, чому я використовую чі, коли створюю інтервал довіри для дисперсії.


4
Ви використовуєте його, тому що - коли дані нормальні - . (Це робить головною кількістю) QQ=(n1)s2σ2χn12Q
Glen_b -Встановіть Моніку

2
Дивіться також stats.stackexchange.com/questions/15711/… та його посилання.
Нік Кокс

1
Для тих, хто зацікавлений у застосуванні або подальшому дослідженні χ2 , ви хочете звернути увагу на відмінність розподілу χ2 ("chi-квадрат") і розподілу χ ("chi") (це квадратний корінь χ2 , не дивно).
whuber

Відповіді:


23

Швидка відповідь

Причина полягає в тому, що, якщо припустити, що дані iid і XiN(μ,σ2) , і визначають

Х¯=NХiNS2=N(Х¯-Хi)2N-1
при формуванні довірчих інтервалів розподіл вибірки, пов'язаний з дисперсією вибірки (S2, пам'ятайте, випадкова величина!) - розподіл chi-квадрата (S2(N-1)/σ2χн-12) так само, як розподіл вибірки, пов'язаний із середньою вибіркою, є стандартним нормальним розподілом ((Х¯-мк)н/σZ(0,1)), коли ви знаєте дисперсію, а з t-студентом, коли ви цього не робите ((X¯мк)н/SТн-1 ).

Довга відповідь

Перш за все, ми доведемо, що слідує за розподілом chi-квадрата з N - 1 ступенем свободи. Після цього ми побачимо, наскільки цей доказ корисний при виведенні довірчих інтервалів для дисперсії та як з'являється розподіл chi-квадрата (і чому він такий корисний!). Давайте почнемо.S2(N-1)/σ2N-1

Доказ

Для цього, можливо, ви повинні звикнути до розподілу хі-квадратів у цій статті Вікіпедії . Цей розподіл має лише один параметр: ступеня свободи, , і, мабуть, має функцію, що генерує момент (MGF), задану: m χ 2 ν ( t ) = ( 1 - 2 t ) - ν / 2 . Якщо ми можемо показати, що розподіл S 2 ( N - 1 ) / σ 2 має функцію породження моменту, як ця, але при ν =ν

mχν2(t)=(12t)ν/2.
S2(N1)/σ2 , то ми показали, що S 2 ( N - 1 ) / σ 2 слідує за розподілом chi-квадрата з N - 1 ступенями свободи. Для того, щоб показати це, зверніть увагу на два факти:ν=N1S2(N1)/σ2N1
  1. Якщо визначимо, деZiN(0,1), тобто стандартних нормальних випадкових величин, функція генерації моментуYзадається m Y (t)

    Y=(XiX¯)2σ2=Zi2,
    ZiN(0,1)Y MGFZ2задається m Z 2 ( t )
    mY(t)=E[etY]=E[etZ12]×E[etZ22]×...E[etZN2]=мZi2(т)×мZ22(т)×...мZN2(т).
    Z2 де використовували PDF стандартного нормального,F(г)=е- г 2 / 2/
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    і, отже, mY(t)=(1-2t) - N / 2 , з чоговипливає, щоYслідує за розподілом чі-квадрата зNступенями свободи.f(z)=ez2/2/2π
    mY(t)=(12t)N/2,
    YN
  2. Y1Y2ν1ν2W=Y1+Y2ν1+ν2W

N1

(N-1)S2=-н(Х¯-мк)+(Хi-мк)2,
σ2
(N1)S2σ2+(X¯μ)2σ2/N=(Xiμ)2σ2.
NS2(N1)/σ2N1

Розрахунок інтервалу довіри для дисперсії.

L1L2

P(L1σ2L2)=1α.
S2(N1)
L1S2(N1)σ2S2(N1)L2S2(N1).
S2(N1)/σ2N1
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
S2(N1)/σ2χ2(N1)
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
N1N1N1
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
Calling χα/22=S2(N1)L2 and χ1α/22=S2(N1)L1, where the values χα/22 and χ1α/22 can be found in chi-square tables (in computers mainly!) and solving for L1 and L2,
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
Hence, your confidence interval for the variance is
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).

1
Simply because S2 does not follow a centered chi-square distribution, while S2(N1)/σ2 does and, therefore, its easier to work with. Are you asking for a derivation for that? (i.e., you want someone to show you that S2(N1)/σ2 follows a chi-square distribution with N1 degrees of freedom?)
Нестор

4
Було б корисно змінити цю відповідь, щоб включити дуже сильне, але нестандартне припущення, що дисперсія вибірки слідує за розподілом у квадраті, коли базові дані є незалежними та слідують за нормальним розподілом. На відміну від теорії розподілу середнього зразка, коли на практиці його розподіл вибірки буде приблизно нормальним до розумної точності у багатьох ситуаціях, ця ж асимптотична поведінка має тенденцію не відбуватися з дисперсією вибірки (поки розміри вибірки не стануть надзвичайно великими).
whuber

1
На жаль Так, так правда! Це насправді випливало з вирішення проблеми, яке я роздав деяким студентам, де я висловлюю питання про всі ці припущення. Зараз я відредагував відповідь.
Нестор

1
@ user34756 Причина, по якій ми не використовуємо розповсюдження S2безпосередньо полягає в тому, що його розподіл залежить від значення параметра. Вам може бути корисним дослідити використання основної величини при побудові довірчих інтервалів.
Glen_b -Встановити Моніку

1
Чи ні f(z)=е-z2/2 замість f(z)=е-z2 ?
Benoît Legat
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.