Похибка апроксимації довірчого інтервалу для середнього значення, коли


15

Нехай {Xi}i=1n - сімейство iid випадкових величин, що приймають значення в [0,1] , що мають середнє μ та дисперсію σ2 . Простий довірчий інтервал для середнього, використовуючи σ коли він відомий, задається

П(|Х¯-мк|>ε)σ2нε21нε2(1).

Також тому, що Х¯-мкσ/н асимптотично розподілений як стандартна нормальна випадкова величина, звичайний розподіл іноді використовується для "побудови" приблизного довірчого інтервалу.


У екзаменах зі статистикою відповідей з декількома варіантами мені довелося використовувати це наближення замість (1) коли н30 . Мені завжди було дуже незручно з цим (більше, ніж ви можете собі уявити), оскільки помилка наближення не оцінюється кількісно.


  • Навіщо використовувати звичайне наближення, а не (1) ?

  • Я не хочу більше ніколи сліпо застосовувати правило н30 . Чи є хороші посилання, які можуть підтримати мене у відмові від цього та надати відповідні альтернативи? ( (1) є прикладом того, що я вважаю відповідною альтернативою.)

Тут, а σ і E[|X|3] невідомі, вони легко обмежуються.

Зауважте, що моє запитання є довідковим запитом, особливо щодо довірчих інтервалів, і тому воно відрізняється від питань, які були запропоновані як часткові дублікати тут і тут . Там не відповідають.


2
Можливо, вам доведеться вдосконалити наближення, знайдене в класичних посиланнях, і використати той факт, що Xi знаходяться в (0,1) який, як ви помітили, дає інформацію про моменти. Магічний інструмент, я вважаю, буде теоремою Беррі – Ессен!
Ів

1
з цими межами дисперсія не може бути більшою ніж 0,25, набагато кращої за 1, чи не так?
Карло

Відповіді:


3

Навіщо використовувати нормальне наближення?

Це так само просто, як сказати, що завжди краще використовувати більше інформації, ніж менше. У рівнянні (1) використовується теорема Чебишева . Зауважте, як він не використовує ніякої інформації про форму вашого розповсюдження, тобто працює для будь-якого розповсюдження із заданою дисперсією. Отже, якщо ви використовуєте якусь інформацію про форму вашого розповсюдження, ви повинні отримати краще наближення. Якщо ви знали, що ваш розподіл є гауссовим, то використовуючи ці знання, ви отримуєте кращу оцінку.

Оскільки ви вже застосовуєте центральну граничну теорему, чому б не використати гауссова апроксимація меж? Насправді вони стануть кращими, жорсткішими (або чіткішими), оскільки ці оцінки базуються на знанні форми, яка є додатковою інформацією.

Правило великого пальця 30 - це міф, який виграє від упередженості підтвердження . Він просто копіюється з однієї книги в іншу. Одного разу я знайшов в документі 1950-х років посилання, що пропонувало це правило. Як я пам’ятаю, це був не якийсь надійний доказ. Це було якесь емпіричне дослідження. В основному, єдиною причиною його використання є те, що це працює. Ви не бачите, що це порушено погано.

ОНОВЛЕННЯ Перегляньте статтю Захарі Р. Сміта та Крейга С. Уеллса " Теорема центральної межі та розмір вибірки ". Вони представляють емпіричне дослідження конвергенції CLT для різних видів розподілів. Магічне число 30, звичайно, не спрацьовує.


+1 Для розумного пояснення. Але чи не існує ризику використання інформації, що не зовсім правильно? CLT нічого не говорить про розподіл для фіксованого n . X¯n
Олів'є

правильно, CLT нічого не говорить про розподіл кінцевої вибірки, але так само не використовуйте ніяких асимптотичних рівнянь. Однак, безперечно, вони мають корисну інформацію, тому обмежувальні відносини використовуються всюди. Проблема Чебишева полягає в тому, що він настільки широкий, що його рідко використовують поза аудиторією. Наприклад, для одного стандартного відхилення ймовірність того, що дає, - навряд чи практична інформація<1/k2=1
Аксакал

Але для приймає значення 0 або 1 з однаковою ймовірністю, ваше застосування Чебишева є гострим. ;) Проблема полягає в тому, що Чебишев, застосований до середнього зразка, ніколи не залишатиметься різким у міру зростання n . Xn
Олів'є

Я не знаю про папір Сміта і Веллса, я спробував відтворити його в R і не зміг відновити їх висновки ...
Алекс Нельсон

9

Проблема використання нерівності Чебишева для отримання інтервалу для справжнього значення полягає в тому, що воно дає лише нижню межу ймовірності, яка до того ж іноді тривіальна, або, щоб не бути тривіальною, може дати дуже широку довірчий інтервал. Ми маємо

P(|X¯μ|>ε)=1P(X¯εμX¯+ε)

P(X¯εμX¯+ε)11nε2

Ми бачимо, що, залежно від розміру вибірки, якщо зменшити "занадто багато", ми отримаємо тривіальну відповідь "ймовірність більша за нуль".ε

Крім того, що ми отримуємо з цього підходу є висновок форми «» ймовірність падіння в [ ˉ X & plusmn ; & epsi ; ] є рівним або більше , ніж ... »μ[X¯±ε]

Але припустимо, що з цим нам добре, і позначимо мінімальну ймовірність, з якою нам комфортно. Так ми хочемоpmin

11nε2=pminε=1(1pmin)n

При невеликих розмірах вибірки та високій бажаній мінімальній ймовірності це може дати незадовільно широкий інтервал довіри. Наприклад, для і n = 100 ми отримаємо ε .316 , що, наприклад, для змінної, обробленої ОП, обмеженою в [ 0 , 1 ], здається, занадто великою, щоб бути корисною.pmin=0.9n=100ε.316[0,1]

Але підхід є дійсним і без розповсюдження, тому можуть бути випадки, коли він може бути корисним.

Можна також перевірити нерівність Височанського - Петуніна, згадану в іншій відповіді, яка має на увазі безперервні одномодальні розподіли та уточнює нерівність Чебишева.


Я не згоден, що проблема з Чебичовим полягає в тому, що вона дає лише нижню межу ймовірності. У налаштуваннях без розподілу нижня межа - це найкраще, на що ми можемо сподіватися. Важливі питання: чи Чебичев гострий? Чи систематично завищена довжина ЧІ Чечічева для фіксованого рівня ? На це я відповів у своєму дописі з певної точки зору. Однак я все ще намагаюся зрозуміти, чи у Чебичева для зразка середнього завжди не буде різким, у більш сильному розумінні. α
Олів'є

Довжина CI не оцінюється, оскільки не існує якоїсь однієї невідомої довжини, тому я не впевнений, що ви маєте на увазі, використовуючи тут слово "завищена оцінка". Різні методи забезпечують різні ІС, і тоді, звичайно, ми можемо спробувати їх оцінити та оцінити.
Алекос Пападопулос

Завищена оцінка була поганим вибором слів, дякую за те, що вони її вказували. Під "систематично завищеною довжиною" я мав на увазі, що метод отримання ІП завжди дає щось більше, ніж потрібно.
Олів'є

1
@Olivier Взагалі кажучи, нерівність Чебишева, як відомо, є нерівною нерівністю, і тому використовується більше як інструмент у теоретичних виведеннях та доведеннях, а не в прикладній роботі.
Алекос Пападопулос

2
@Olivier "Взагалі кажучи" стосується вашої кваліфікації, я б сказав.
Алекос Пападопулос

7

Коротка відповідь полягає в тому, що це може пройти досить погано, але тільки якщо один або обидва хвости розподілу вибірки дійсно жирні .

Цей код R генерує мільйон наборів з 30 гамма-розподілених змінних і приймає їх середнє значення; з його допомогою можна зрозуміти, як виглядає розподіл вибірки середнього. Якщо нормальне наближення працює за призначенням, результати повинні бути приблизно нормальними із середнім значенням 1 та дисперсією 1/(30 * shape).

f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}

Коли shapeдорівнює 1,0, розподіл гамми стає експоненціальним розподілом , що досить ненормально. Тим не менше, не-гауссові частини в основному середні, і тому наближення Гаусса не так вже й погано:

histogram & density plot

Явно є деякі упередження, і було б добре уникати цього, коли це можливо. Але, чесно кажучи, такий рівень упередженості, ймовірно, не буде найбільшою проблемою, що стоять перед типовим дослідженням.

Однак, все може погіршитися. З f(0.01), гістограма виглядає так:

histogram

Перетворення журналу 30 вибіркових точок даних перед усередненням дуже допомагає:

histogram

Взагалі, для розподілу з довгими хвостами (на одній або обох сторонах розподілу) знадобиться найбільше вибірок, перш ніж Гауссове наближення почне ставати надійним. Існують навіть патологічні випадки, коли буквально ніколи не буде достатньо даних для того, щоб наближення Гаусса спрацювало, але ви, мабуть, матимете серйозніші проблеми в цьому випадку (оскільки розподіл вибірки не має чітко визначеного середнього значення або дисперсії для початку з).


Я вважаю експеримент дуже доречним і цікавим. Однак я не прийму це як відповідь, оскільки це не вирішує суть проблеми.
Олів'є

1
що суть?
Девід Дж. Харріс

Ваша відповідь не забезпечує жорсткого підґрунтя для обгрунтованої статистичної практики. Це лише наводить приклади. Зауважимо також, що випадкові змінні, які я вважаю обмеженими, сильно змінюють те, що є найгіршим можливим випадком.
Олів'є

@Glen_b: ця відповідь не так стосується вашої переглянутої версії питання. Чи варто просто залишити його тут, чи ти б порекомендував щось інше?
Девід Дж. Харріс

3

Проблема з довірчим інтервалом Чебишева

σ214Var(X)μ(1μ). Therefore a confidence interval for μ is given by

P(|X¯μ|ε)14nε2.
The problem is that the inequality is, in a certain sense, quite loose when n gets large. An improvement is given by Hoeffding's bound and shown below. However, we can also demonstrate how bad it can get using the Berry-Esseen theorem, pointed out by Yves. Let Xi have a variance 14, the worst possible case. The theorem implies that P(|X¯μ|ε2n)2SF(ε)+8n, where SF is the survival function of the standard normal distribution. In particular, with ε=16, we get SF(16)e58 (according to Scipy), so that essentially
P(|X¯μ|8n)8n+0,()
whereas the Chebyshev inequality implies
P(|X¯μ|8n)1256.
Note that I did not try to optimize the bound given in (), the result here is only of conceptual interest.

Comparing the lengths of the confidence intervals

Consider the (1α)-level confidence interval lengths Z(α,n) and C(α,n) obtained using the normal approximation (σ=12) and the Chebyshev inequality, repectively. It turns out that C(α,n) is a constant times bigger than Z(α,n), independently of n. Precisely, for all n,

C(α,n)=κ(α)Z(α,n),κ(α)=(ISF(α2)α)1,
where ISF is the inverse survival function of the standard normal distribution. I plot below the multiplicative constant.

enter image description here

In particular, the 95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.


Using Hoeffding's bound

Hoeffding's bound gives

P(|X¯μ|ε)2e2nε2.
Thus an (1α)-level confidence interval for μ is
(X¯ε,X¯+ε),ε=lnα22n,
of length H(α,n)=2ε. I plot below the lengths of the different confidence intervals (Chebyshev inequality: C; normal approximation (σ=1/2): Z; Hoeffding's inequality: H) for α=0.05.

enter image description here


Very interesting! I have though some corrections to suggest you toghether with a big puzzlement: first, you should take out absolute value from the Hoeffding's unequality definition, it's P(X¯με)e2nε2 or P(|X¯μ|ε)2e2nε2; the second correction is less important, α is generally taken to be 0.05 or lower, while 0.95 is addressed as 1α, it's a bit confusing to see them switched in your post.
carlo

Last and more important: I found your result incredible, so I tried to replicate it in R and I got a completely opposite result: normal approximation gives smaller confidence intervals to me! this is the code I used: curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
carlo

0

let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!

If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.


Could you add a reference for " Vysochanskij–Petunin inequality "? Never heard of it!
kjetil b halvorsen

wikipedia docet
carlo

Can you express the rate of convergence in terms of the skewdness? Why is a sample size of, you'd say 2, enough for unimodality? How is the Vysochanskij–Petunin inequality an improvement over Chebychev if you need to double or triple the sample size for it to apply?
Olivier

I made a fast google search and I found out that binomial distribution is actually often used to explain different sample size need for skewed data, but I didn't find, and I guess there is no accepted "rate of convergence in terms of the skewdness".
carlo

Vysochanskij–Petunin inequality is more efficent than Chebychev's, so it doesn't need a greater sample at all, but it has some use constraints: first, you have to have a continuous distribution, than, it has to be unimodal (no local modes are allowed). It may seem strange to drop normality assumption to adopt another one, but if your data is not discrete, sample mean should eliminate local modes even with very small samples. Fact is that mean has much of a bell distribution and, also if it can be skewed or have fat tails, it quickly comes to only have one mode.
carlo
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.