Інтервал довіри для медіани


40

Я маю знайти 95% ІС на медіані та інших відсотках. Я не знаю, як до цього підійти. В основному я використовую R як інструмент програмування.

Відповіді:


31

Ось ілюстрація класичного набору даних R:

> x       = faithful$waiting
> bootmed = apply(matrix(sample(x, rep=TRUE, 10^4*length(x)), nrow=10^4), 1, median)
> quantile(bootmed, c(.025, 0.975))
2.5% 97.5% 
 73.5    77 

що дає (73.5, 77) довірчий інтервал на медіані.

( Примітка: Виправлена версія, завдяки Джону . Я використовував в раніше, що призвело до плутанини!)103nrow


7
Мені здається підозріло вузьким. Використовуючи функції з, як library(boot)видається, підтверджують це:> boot.ci (boot (x, функція (x, i)) медіана (x [i]), R = 1000)) Інтервали: рівень нормальний базовий 95% (74,42, 78,22) (75,00 , 78.49) Рівень Процентний BCa 95% (73.51, 77.00) (73.00, 77.00)
onestop

2
ти вітаєш Сіань ... В сторону я завжди вважаю за краще встановити початкове значення N у матриці, тому що це константа для різних розмірів завантажувальної машини, які я можу зробити. Отже, я б зазвичай сказав ncol = length (x). Я вважаю, що менше шансів на помилку таким чином.
Іван

6
Це просто неефективний спосіб обчислити біноміальні кванти, як у відповіді onestop .
whuber

30

Інший підхід ґрунтується на квантилах біноміального розподілу.
наприклад:

> x=faithful$waiting
> sort(x)[qbinom(c(.025,.975), length(x), 0.5)]
[1] 73 77

4
Мені подобається простота цього ... Результати близькі до методу завантаження.
Домінік Комтуа

1
Це, очевидно, набагато ефективніше, ніж завантажувальний процес для безперервного випадку, але один недолік - це те, що він не враховує зв'язані ранги. Чи трапляється вам знати шляхи вирішення цього?
ali_m

15

Перевірте перекомпонування завантажувальної програми. Довідка пошуку R для функції завантаження. Залежно від ваших даних за допомогою перекомпонування, ви можете оцінювати довірчі інтервали майже для всього.


Погодьтеся. Це найкращий підхід. На мою думку, недостатньо використані в біомедичних науках.
pmgjones

10
Розгляньте питання про згладжений завантажувальний інструмент для оцінки кількісних показників населення, оскільки, здається, у цьому випадку звичайні бустрапи мають проблеми - посилання на цей pdf можна знайти . Якщо вас просто зацікавив теоретичний медіан, можна використати оцінку Ходжеса-Лемана - відповідно до wilcox.test(..., conf.int=TRUE)функцій R, наприклад .
каракал

4

Є й інші підходи: один заснований на тесті Wilcoxon Rank Sum, застосованому для одного зразка з корекцією безперервності. У R це може бути подано у вигляді:

wilcox.test(x,conf.level=0.95,alternative="two.sided",correct=TRUE)

Ось тут обговорюється медіана ІР Девіда Оліва для медіани:

CI для медіани


1

Результат, заснований на підході qbinom, не правильний для малих зразків. Припустимо, що x має 10 компонентів. Тоді qbinom (c (.025, .975), 10, .5) дає 2 і 8. Отриманий інтервал не розглядає статистику порядку в нижньому хвості симетрично з тими, що знаходяться у верхньому хвості; Ви повинні отримати або 2, і 9, або 3 і 8. Правильна відповідь - 2 і 9. Ви можете перевірити, чи не є однонаціональним в SAS. Ловити тут вам потрібно не більше 0,525 ймовірності нижче і вище; нижній квантил цього не робить, оскільки він дає щонайменше .025 в і нижче. Ви зберігаєтеся внизу, тому що кількість, яка повинна бути 1, повинна бути зіставлена ​​на статистику другого порядку, нараховуючи 0, і тому "вимкнути один" скасовується. Це випадкове скасування не відбувається зверху, і тому ви отримуєте неправильну відповідь тут. Сортування коду (x) [qbinom (c (.025, .975), довжина (x) ,. 5) + c (0,1)] майже працює, і .5 можна замінити на інші кількісні значення, щоб отримати довірчі інтервали для інших квантилів, але це не буде правильно, коли існує такий, що P [X <= a ] =. 025. Див., Наприклад, Хіггінса, непараметричні статистичні дані.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.