Тест на кінцеву дисперсію?


29

Чи можна перевірити на скінченність (або існування) дисперсії випадкової величини, що дається вибіркою? Як нуль, або {варіація існує і є кінцевою}, або {дисперсія не існує / є нескінченною} було б прийнятним. Філософсько (і обчислювально) це здається дуже дивним, оскільки не повинно бути різниці між сукупністю без кінцевої дисперсії та кількістю з дуже великою дисперсією (скажімо> ), тому я не сподіваюся, що ця проблема може бути вирішено.10400

Один із підходів, який був запропонований мені, був через теорему про центральний межа: якщо припустити, що вибірки є ідентичними, а популяція має кінцеве середнє значення, можна якось перевірити, чи має середнє значення вибірки правильну стандартну помилку із збільшенням розміру вибірки. Я не впевнений, я вважаю, що цей метод спрацював би. (Зокрема, я не бачу, як зробити це належним тестом.)


1
Відповідне: stats.stackexchange.com/questions/94402/… Якщо існує найменша можливість, дисперсії не існує, вам краще скористатися моделлю, яка не передбачає кінцевої дисперсії. Навіть не думайте про тестування.
kjetil b halvorsen

Відповіді:


13

Ні, це неможливо, оскільки кінцевий зразок розміру не може достовірно розрізнити, скажімо, нормальну популяцію та нормальну популяцію, забруднену 1 / N величиною розподілу Коші, де N >> n . (Звичайно, перший має кінцеву дисперсію, а другий - нескінченну дисперсію.) Таким чином, будь-який абсолютно непараметричний тест матиме довільно низьку потужність щодо таких альтернатив.н1/NNн


4
це дуже хороший момент. однак, чи не більшість тестів на гіпотези мають довільно низьку потужність щодо якоїсь альтернативи? наприклад, тест на нульову середню матиме дуже низьку потужність, якщо давати вибірку з сукупності із середнім значенням при 0 < | ϵ | малий. Мені все ще залишається цікаво, чи можна взагалі розробити такий тест, а тим більше, чи має він низьку потужність в деяких випадках. ϵ0<|ϵ|
shabbychef

2
також, "забруднені" дистрибуції на зразок тієї, яку ви цитуєте, мені завжди здавалися суперечною з ідеєю "розподілу однаково". Можливо, ти погодишся. Здається, що сказати, що зразки виводяться в iid з деякого розповсюдження, не вказуючи, що розподіл є безглуздим (ну, "незалежно" частина iid має сенс).
shabbychef

2
(1) Ви маєте рацію щодо малої потужності, але проблема тут (мені здається) полягає в тому, що немає жодного поступового кроку від "кінцевого" до "нескінченного": проблема, здається, не має природного масштабу, щоб сказати нам що являє собою "малий" відхід від нуля порівняно з "великим" відходом. (2) Форма розподілу не залежить від міркувань про iid. Я не маю на увазі, що, скажімо, 1% даних буде надходити від Коші, а 99% - із Нормального. Я маю на увазі, що 100% даних надходять з розподілу, який є майже нормальним, але має хвости Коші. У цьому сенсі дані можуть бути ідентифікованими для зараженого розповсюдження.
whuber

2
Хтось читав цей документ? sciencedirect.com/science/article/pii/S0304407615002596
Christoph Hanck

3
@shabbychef, якщо кожне спостереження випливає з того самого процесу суміші, який вони однаково розподілені, кожне як черпак із відповідного розподілу суміші. Якщо одні спостереження обов'язково є одним процесом, а інші - обов'язково іншим процесом (спостереження 1 - 990 є нормальними, а спостереження від 991 до 1000 - Коші, скажімо), то вони не однаково розподілені (навіть якщо комбінований зразок може бути невідрізним від суміші 99% -1%). Це по суті зводиться до моделі процесу, який ви використовуєте.
Glen_b -Встановіть Моніку

16

Ви не можете бути впевнені, не знаючи розподілу. Але ви можете зробити певні речі, такі як перегляд того, що можна назвати "частковою дисперсією", тобто якщо у вас є вибірка розміру , ви намалюєте дисперсію, оцінену з перших n термінів, причому n працює від 2 до N .NnnN

З обмеженою дисперсією населення ви сподіваєтесь, що часткова дисперсія незабаром осідає близько до дисперсії сукупності.

З нескінченною дисперсією сукупності ви бачите стрибки в частковій дисперсії з подальшим повільним зниженням до наступного дуже великого значення у вибірці.

Це ілюстрація з випадковими змінними Normal та Cauchy (та шкалою журналу) Часткова дисперсія

Це може не допомогти, якщо форма вашого розповсюдження така, що потрібен набагато більший розмір вибірки, ніж у вас, щоб ідентифікувати його з достатньою впевненістю, тобто там, де дуже великі значення досить (але не надзвичайно) рідкісні для розподілу з кінцевою дисперсією, або вкрай рідкісні для розподілу з нескінченною дисперсією. Для даного розподілу існуватимуть вибіркові розміри, які швидше, ніж не розкриють його природу; навпаки, для заданого розміру вибірки існують розподіли, які швидше за все не маскують їхню природу під цей розмір вибірки.


4
+1 Мені це подобається, тому що (а) графіка зазвичай виявляє набагато більше, ніж тест, і (б) це практично. Я трохи стурбований тим, що він має довільний аспект: його зовнішній вигляд залежатиме (сильно, можливо) від того, в якому порядку наводяться дані. Коли "часткова дисперсія" пов'язана з одним або двома крайніми значеннями, і вони наближаються до початку, ця графіка може бути оманливою. Цікаво, чи є хороше рішення цієї проблеми.
whuber

1
+1 для відмінної графіки. Дійсно закріплює поняття "відсутність дисперсії" в розподілі Коші. @whuber: Сортування даних у всіх можливих перестановках, запуск тесту для кожної та взяття якогось середнього? Я не дуже обчислювально ефективний, я дозволю вам :), але, можливо, ви могли просто вибрати кілька випадкових перестановок?
naught101

2
@ naught101 Усереднення всіх перестановок нічого не скаже, тому що ви отримаєте ідеально горизонтальну лінію. Можливо, я неправильно розумію, що ти маєш на увазі?
whuber

1
@whuber: Я фактично мав на увазі взяття середнього тесту на конвергенцію, а не сам графік. Але я дам це досить розпливчаста ідея, і це багато в чому тому, що я поняття не маю, про що я говорю :)
naught101

7

Ось ще одна відповідь. Припустимо, ви могли б параметризувати проблему приблизно так:

Н0: Хт(гf=3) vеrсус Н1: Хт(гf=1).

Тоді ви могли б зробити звичайний тест вірогідності Неймана-Пірсона проти H 1 . Зауважимо, що H 1 - Коші (нескінченна дисперсія), а H 0 - звичайний t Стьюдента з 3 ступенями свободи (кінцева дисперсія), який має PDF: f ( x | ν ) = Γ ( ν + 1Н0H1H1H0 т

f(х|ν)=Γ(ν+12)νπΓ(ν2)(1+х2ν)-ν+12,

для . З урахуванням простих випадкових даних вибірки x 1 , x 2 , , x n , тест відношення ймовірності відхиляє H 0, коли Λ ( x ) = n i = 1 f ( x i | ν = 1 )<x<x1,x2,,xnH0 деk0вибирається таким, що P(Λ(X)>k

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

Трохи алгебри спростити

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

Отже, знову ж таки, ми отримуємо просту випадкову вибірку, обчислюємо і відкидаємо H 0, якщо Λ ( x ) занадто великий. Наскільки великий? Ось така весела частина! Буде важко (неможливо?) Отримати закриту форму для критичного значення, але ми могли б наблизити її так близько, як нам подобається. Ось один із способів зробити це за допомогою Р. Припустимо, α = 0,05 , а для сміху скажемо n = 13 .Λ(x)H0Λ(x)α=0.05n=13

Ми формуємо купу зразків під , обчислюємо Λ для кожного зразка, а потім знаходимо 95-й квантил.H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

Це виявляється, що (через кілька секунд) на моїй машині було , яке після множення на ( 12.8842 єдо1,9859. Звичайно, є й інші, кращі способи наблизити це, але ми просто розігруємось.(3/2)13k1.9859

H0H1α

Відмова від відповідальності: це приклад іграшки. У мене немає жодної ситуації в реальному світі, в якій мені було б цікаво дізнатися, чи надійшли мої дані з Коші, на відміну від t-студента з 3 df. І в оригінальному запитанні нічого не було сказано про параметризовані проблеми, здавалося, що він шукав більше непараметричного підходу, який, на мою думку, був вирішений іншими. Мета цієї відповіді - майбутнім читачам, які натрапляють на назву питання та шукають класичного запиленого підходу до підручника.

H1:ν1


2
α

1
H1:ν2ν>2

2
α

1
αα=2

6

DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

Одна гіпотеза має кінцеву дисперсію, одна - нескінченна дисперсія. Просто обчисліть шанси:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

P(H0|I)P(HA|I)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

L1<μ,τ<U1L2<σ,τ<U2

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

s2=N1i=1N(YiY¯)2Y¯=N1i=1NYi

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

І тепер, приймаючи співвідношення, ми виявляємо, що важливі частини констант, що нормалізуються, скасовуються, і ми отримуємо:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

І всі інтеграли все ще належні в межі, щоб ми могли отримати:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

λ=σ2dσ=12λ32dλ

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

And we get as a final analytic form for the odds for numerical work:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

So this can be thought of as a specific test of finite versus infinite variance. We could also do a T distribution into this framework to get another test (test the hypothesis that the degrees of freedom is greater than 2).


1
When you started to integrate, you introduced a term s2. It persists through the final answer. What is it?
whuber

2
@whuber - s is the standard deviation MLE, s2=N1i=1N(YiY¯)2. I thought it was the usual notation for standard deviation, just as Y¯ is usual for average - which I have incorrectly written as x¯, will edit accordingly
probabilityislogic

5

The counterexample is not relevant to the question asked. You want to test the null hypothesis that a sample of i.i.d. random variables is drawn from a distribution having finite variance, at a given significance level. I recommend a good reference text like "Statistical Inference" by Casella to understand the use and the limit of hypothesis testing. Regarding h.t. on finite variance, I don't have a reference handy, but the following paper addresses a similar, but stronger, version of the problem, i.e., if the distribution tails follow a power law.

POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA SIAM Review 51 (2009): 661--703.


1

One approach that had been suggested to me was via the Central Limit Theorem.

This is a old question, but I want to propose a way to use the CLT to test for large tails.

Let X={X1,,Xn} be our sample. If the sample is a i.i.d. realization from a light tail distribution, then the CLT theorem holds. It follows that if Y={Y1,,Yn} is a bootstrap resample from X then the distribution of:

Z=n×mean(Y)mean(X)sd(Y),

is also close to the N(0,1) distribution function.

Now all we have to do is perform a large number of bootstraps and compare the empirical distribution function of the observed Z's with the e.d.f. of a N(0,1). A natural way to make this comparison is the Kolmogorov–Smirnov test.

The following pictures illustrate the main idea. In both pictures each colored line is constructed from a i.i.d. realization of 1000 observations from the particular distribution, followed by a 200 bootstrap resamples of size 500 for the approximation of the Z ecdf. The black continuous line is the N(0,1) cdf.

enter image description here enter image description here


2
No amount of bootstrapping will get you anywhere against the problem I raised in my answer. That's because the vast majority of samples will not supply any evidence of a heavy tail--and bootstrapping, by definition, uses only the data from the sample itself.
whuber

1
@whuber If the X values are taken from a symmetrical power law, then the generalized CLT applies and KS test will detect the difference. I believe that your observation do not correctly characterize what you say is a "gradual step from "finite" to "infinite""
Mur1lo

1
The CLT never "applies" to any finite sample. It's a theorem about a limit.
whuber

1
When I say that it "applies" I'm only saying that it provides a good approximation if we have a large sample.
Mur1lo

1
The vagueness of "good approximation" and "large" unfortunately fail to capture the logic of hypothesis tests. Implicit in your statement is the possibility of collecting an ever larger sample until you are able to detect the heavy-tailedness: but that's not how hypotheses tests usually work. In the standard setting you have a given sample and your task is to test whether it is from a distribution in the null hypothesis. In this case, bootstrapping won't do that any better than any more straightforward test.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.