Як я можу обчислити довірчий інтервал середнього значення в не нормально розподіленій вибірці?


19

Як я можу обчислити довірчий інтервал середнього значення в не нормально розподіленій вибірці?

Я розумію, що тут зазвичай використовуються методи завантаження, але я відкритий для інших варіантів. Хоча я шукаю непараметричний варіант, якщо хтось може переконати мене, що параметричне рішення є дійсним, це було б добре. Розмір вибірки> 400.

Якщо хто-небудь міг би дати зразок на R, це було б дуже вдячно.


3
Центральна гранична теорема передбачає, що обмежувальний розподіл середньої вибірки є нормальним незалежно від розподілу вихідних даних (за деяких умов). У багатьох випадках розмір вибірки є досить великим, щоб нормальне наближення було досить точним, але точність залежить від батьківського розподілу - це може допомогти, якщо ви, наприклад, розмістили гістограму вихідних даних. н>400
Макрос

Відповіді:


18

Перш за все, я перевірив би, чи є середнє значення відповідним показником для заданого завдання. Якщо ви шукаєте "типову / або центральну цінність" перекошеного розподілу, середнє може вказувати на досить нерепрезентативне значення. Розглянемо нормальний розподіл журналу:

x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")

Середня (червона), середня порізана на 20% (зелена) та середня (синя) для нормального розподілу журналу

Середнє значення (червона лінія) досить далеко від основної маси даних. На 20% підстрижена середня (зелена) та медіана (синя) ближче до "типового" значення.

Результати залежать від типу вашого "ненормального" розповсюдження (корисна буде гістограма ваших фактичних даних). Якщо він не перекошений, але має важкі хвости, ваші КІ будуть дуже широкими.

У будь-якому випадку, я вважаю, що завантаження даних дійсно є хорошим підходом, оскільки це також може дати вам асиметричні ІС. RПакет simplebootє хорошим початком:

library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))

... дає наступний результат:

# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals : 
Level     Percentile            BCa          
95%   ( 1.062,  1.228 )   ( 1.065,  1.229 )  
Calculations and Intervals on Original Scale

Дуже дякую за детальну відповідь. Чи хотіли б ви прокоментувати (мінімальну) різницю між статистикою перцентиля та скоригованим перцентилем (BCa)?
fmark

"Прискорений інтервал прискореного зміщення прискореного завантаження (BCa) - це модифікація методу перцентилів, який налаштовує процентилі на коригування зсуву та косості" (Хестерберг, Т., Монаган, С., Мур, Д., Кліпсон, А., & Епштейн, Р. (2005). Методи завантаження та тести перестановки. Вступ до статистичної практики, 14.1–14.70.). Коли програмне забезпечення дозволяє, використовуйте CI, виправлену BCa (зверніть увагу: їй потрібно> 1000 повторних зразків)
Felix S

З документації для пакету Simpleboot видно, що аргумент для обрізки більше не підтримується. :(
et

8

Якщо ви відкриті для напівпараметричного рішення, ось одне: Johnson, N. (1978) Модифіковані t тести та інтервали довіри для асиметричних популяцій, JASA . Центр довірчого інтервалу зміщений наκ^/(6с2н), де κ^- це оцінка третього моменту чисельності населення, а ширина залишається такою ж. Враховуючи, що ширина довірчого інтервалу дорівнюєО(н-1/2), а поправка на середнє значення є О(н-1), ви повинні мати дійсно значну косисть (порядку) н1/2>20) для того, щоб мати значення н>400. Запуск завантажувального пристрою повинен давати вам асимптотично еквівалентний інтервал, але ви також додасте зображення імітаційного шуму. (CI завантажувального завантажувача автоматично виправляє той же самий термін першого порядку відповідно до загальної теорії розширення Bootstrap і Edgeworth (Hall 1995) .) Що я можу згадати щодо доказів симуляції, CI завантажувальної машини дещо жирніше, ніж CI на основі аналітичних вирази, хоча.

Наявність аналітичної форми середньої корекції дасть вам негайне уявлення про те, чи дійсно потрібно враховувати перекоси у вашій проблемі середньої оцінки. Певним чином це діагностичний інструмент того, наскільки погана ситуація. У прикладі лонормального розподілу, наведеного Фелікс, нормалізована косостість розподілу населення є(досвід(1)+2)досвід(1)-1, який є kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877. Ширина CI (використовуючи стандартне відхилення розподілу населення s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197) становить 2*s*qnorm(0.975)/sqrt(n) = 0.2678999, тоді як поправка на середнє значення kappa*s/(6*n) = 0.00222779(стандартне відхилення, перенесене на чисельник, оскільки kappaє безкосмічним скасуванням, в той час як формула Джонсона має справу з невирішеною сукупністю на третину центральний момент), тобто приблизно 1/100-та ширина CI. Чи варто турбуватися? Я б сказав, ні.


2

Спробуйте розподіл журналу, звичайний, обчислюючи:

  1. Логарифм даних;
  2. Середнє та середнє відхилення (1)
  3. Інтервал довіри, відповідний (2)
  4. Експоненція (3)

Ви закінчите асиметричний довірчий інтервал навколо очікуваного значення (що не означає середні вихідні дані).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.