Асимптотичний розподіл дисперсії вибірки ненормальної вибірки


19

Це більш загальне трактування питання, поставленого цим питанням . Отримавши асимптотичний розподіл дисперсії вибірки, ми можемо застосувати метод Delta, щоб дійти до відповідного розподілу для стандартного відхилення.

Нехай зразок розміру iid ненормальних випадкових величин , із середнім та дисперсією . Встановіть середню вибірку та дисперсію вибірки як n{Xi},i=1,...,nμσ2

x¯=1ni=1nXi,s2=1n1i=1n(Xix¯)2

Ми знаємо, що

E(s2)=σ2,Var(s2)=1n(μ4n3n1σ4)

де , і ми обмежимо свою увагу розподілами, для яких моменти потрібно існувати і бути кінцевими, вони існують і є кінцевими.μ4=E(Xiμ)4

Чи вірно це

n(s2σ2)dN(0,μ4σ4)?

Хе. Я щойно опублікував інший потік, не розуміючи, що ви це опублікували. У CLT можна знайти ряд речей, застосованих до дисперсії (наприклад, p3-4 тут, наприклад). Гарна відповідь btw.
Glen_b -Встановити Моніку

Спасибі. Так, я це знайшов. Але вони пропускають справу @whuber вказував. Вони навіть надають приклад Бернуллі із загальним ! (основа п. 4). Я поширюю свою відповідь, щоб охоплювати також випадку. pp=1/2
Alecos Papadopoulos

Так, я бачив, що вони вважають Бернуллі, але не розглядали цю особливу справу. Я думаю, що згадка про відмінність масштабованого Бернуллі (рівнозначний дихотомічний випадок) є однією з причин (серед пари інших), чому цінно, щоб це обговорювалося у відповіді тут (а не просто в коментарі) - не менше того його можна шукати.
Glen_b -Встановити Моніку

Відповіді:


20

До залежних залежностей, що виникають при розгляді вибіркової дисперсії, пишемо

(n1)s2=i=1n((Xiμ)(x¯μ))2

=i=1n(Xiμ)22i=1n((Xiμ)(x¯μ))+i=1n(x¯μ)2

і після невеликих маніпуляцій,

=i=1n(Xiμ)2n(x¯μ)2

Тому

n(s2σ2)=nn1i=1n(Xiμ)2nσ2nn1n(x¯μ)2

Маніпуляція,

n(s2σ2)=nn1i=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nnn11ni=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nn1[n(1ni=1n(Xiμ)2σ2)]+nn1σ2nn1n(x¯μ)2

Термін стає єдністю асимптотично. Термін є детермінованим і переходить до нуля як .n/(n1)nnn1σ2n

У нас також є . Перший компонент переходить у розподілі до нормального, другий - ймовірний до нуля. Тоді за теоремою Слуцького добуток збігається з вірогідністю до нуля,n(x¯μ)2=[n(x¯μ)](x¯μ)

n(x¯μ)2p0

Нам залишається термін

[n(1ni=1n(Xiμ)2σ2)]

Оповіщений смертельним прикладом, запропонованим @whuber у коментарі до цієї відповіді , ми хочемо переконатися, що не є постійним. Вюбер зазначив, що якщо - Бернуллі то ця кількість є постійною. Таким чином, виключаючи змінні, для яких це відбувається (можливо, інші дихотомічні, а не лише двійкові?), Для решти ми маємоХ я ( 1 / 2 ) 0 / 1(Xiμ)2Xi(1/2)0/1

E(Xiμ)2=σ2,Var[(Xiμ)2]=μ4σ4

і тому термін, що досліджується, є звичайною темою класичної теореми про центральну межу, і

n(s2σ2)dN(0,μ4σ4)

Примітка: вищенаведений результат звичайно справедливий і для нормально розподілених зразків, але в останньому випадку ми також маємо доступний результат розподілу кі-квадратного кінцевого зразка з кінцевим зразком.


3
+1 Немає підстав перевіряти загальні дихотомічні розподіли, оскільки вони є всіма масштабними та локаційними версіями Бернуллі: аналізу на Бернуллі достатньо. Мої симуляції (до розмірів вибірки ) підтверджують результат . χ 2 1101000χ12
whuber

@whuber Дякуємо за перевірку. Ви маєте рацію, що Бенроулі є матір'ю їх усіх.
Алекос Пападопулос

10

Ви вже маєте детальну відповідь на своє запитання, але дозвольте запропонувати ще одну, щоб піти з ним. Власне, коротший доказ можливий на основі того, що розповсюдження

S2=1n1i=1n(XiX¯)2

не залежить від , скажімо. Асимптотично, також не має значення, чи змінимо фактор на , що я зроблю для зручності. У нас тоді є1E(X)=ξ 11n11n

n(S2σ2)=n[1ni=1nXi2X¯2σ2]

І тепер ми без втрати загальності припускаємо, що і це помічаємоξ=0

nX¯2=1n(nX¯)2

має межу ймовірності нуля, оскільки другий член обмежений у ймовірності (CLT та теоремою безперервного відображення), тобто він є . Асимптотичний результат тепер випливає з теореми Слуцького та CLT, оскількиOp(1)

n[1nXi2σ2]DN(0,τ2)

де . І це зробить.τ2=Var{X2}=E(X4)(E(X2))2


Це, звичайно, більш економно. Але, будь ласка, перегляньте, наскільки нешкідливим є припущення . Наприклад, він виключає випадок зразка Бернуллі ( ), і, як я згадую в кінці своєї відповіді, для такої вибірки цей асимптотичний результат не дотримується. E(X)=0p=1/2
Алекос Пападопулос

@AlecosPapadopoulos Дійсно, але дані завжди можна зосередити, правда? Я маю на увазі і ми можемо працювати з цими змінними. Що стосується справи Бернуллі, чи щось заважає нам це робити?
i=1n(Xiμ(X¯μ))2=i=1n(XiX¯)2
ДжонК

@AlecosPapadopoulos О так, я бачу проблему.
ДжонК

Я написав невеличкий фрагмент з цього питання, я думаю, що пора завантажити його у свій блог. Я повідомляю вас у випадку, якщо вам цікаво прочитати його. Асимптотичний розподіл дисперсії вибірки в цьому випадку цікавий, а ще більше асимптотичний розподіл стандартного відхилення вибірки. Ці результати справедливі для будь-якої дихотомічної випадкової величини . p=1/2
Алекос Пападопулос

1
Дурне запитання, але як можна припустити, що є допоміжним, якщо не є нормальними? Або завжди є допоміжним (середня WR параметризація, я думаю), але тільки незалежною від вибірки означає, коли середнє значення вибірки є повною достатньою статистикою (тобто нормально розподіленою) за теоремою Басу? S2XiS2
Chill2Macht

3

Відмінні відповіді по Алекос і JohnK вже виводять результат ви після цього , але я хотів би відзначити , що - то ще про асимптотичну розподіл вибіркової дисперсії.

Загально бачити асимптотичні результати, представлені з використанням нормального розподілу, і це корисно для постановки теорем. Однак, практично кажучи, мета асимптотичного розподілу для вибіркової статистики полягає в тому, що він дозволяє отримати приблизний розподіл, коли великий. Ви можете зробити багато варіантів для наближення великого зразка, оскільки багато дистрибутивів мають однакову асимптотичну форму. У випадку дисперсії вибірки, на мою думку, відмінний апроксимуючий розподіл для великого дає:nn

Sn2σ2Chi-Sq(df=DFn)DFn,

де і - параметр куртозу. Цей розподіл асимптотично еквівалентний нормальному наближенню, отриманому з теореми (розподіл chi-квадрата сходиться до нормального, оскільки ступеня свободи має тенденцію до нескінченності). Незважаючи на цю еквівалентність, це наближення має різні інші властивості, якими ви хотіли б мати ваше приблизне розподіл:DFn2/V(Sn2/σ2)=2n/(κ(n3)/(n1))κ=μ4/σ4

  • На відміну від звичайного наближення, отриманого безпосередньо з теореми, цей розподіл має правильну підтримку статистики, що цікавить. Дисперсія вибірки є негативною, і цей розподіл має негативну підтримку.

  • У випадку, коли базові значення зазвичай розподіляються, це наближення насправді є точним розподілом вибірки. (У цьому випадку у нас є що дає , що є стандартною формою, яка використовується в більшості текстів.) Отже, це є результатом, який є точним у важливому спеціальному випадку, при цьому все ще є розумним наближенням у більш загальні випадки.κ=3DFn=n1


Виведення вищевказаного результату: Орієнтовні результати розподілу для середньої вибірки та дисперсії детально обговорюються в O'Neill (2014) , і в цьому документі представлені результати багатьох результатів, включаючи даний приблизний розподіл.

Це виведення починається з граничного результату у питанні:

n(Sn2σ2)N(0,σ4(κ1)).

Переставляючи цей результат, ми отримуємо наближення:

Sn2σ2N(1,κ1n).

Оскільки розподіл chi-квадрата асимптотично нормальний, як ми маємо:DF

Chi-Sq(DF)DF1DFN(DF,2DF)=N(1,2DF).

Прийняття (що дає вищевказану формулу) дає що забезпечує асимптотичний розподіл chi-квадрата. еквівалентний нормальному наближенню від граничної теореми.D F n2 n / ( κ - 1 )DFn2/V(Sn2/σ2)DFn2n/(κ1)


Емпірично цікавим є питання про те, який із цих двох асимптотичних результатів працює краще в кінцевих вибіркових випадках при різних розподілах даних, що лежать в основі.
lzstat

Так, я думаю, що це було б дуже цікавим (і оприлюдненим) симуляційним дослідженням. Оскільки ця формула заснована на корекції куртозу дисперсії вибіркової дисперсії, я б очікував, що даний результат найкраще працює, коли ви маєте базовий розподіл з параметром куртозу, який є далеко не мезокуртичним (тобто, коли куртоз- виправлення має найбільше значення). Оскільки куртоз потрібно оцінювати з вибірки, це відкрите питання про те, коли відбудеться значне поліпшення загальної ефективності.
Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.