Стандартна помилка медіани


14

Чи правильна наступна формула, якщо я хочу виміряти стандартну помилку медіани у випадку невеликої вибірки з ненормальним розподілом (я використовую python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Відповіді:


12

На основі деяких коментарів @ mary, я вважаю, що наступне підходить. Здається, вона вибирає медіану, оскільки вибірка невелика.

Якщо ви вибирали медіану, оскільки це невеликий зразок, це не є гарним виправданням. Ви вибираєте медіану, оскільки медіана є важливим значенням. Це говорить щось інше від середнього. Ви також можете вибрати його для деяких статистичних обчислень, оскільки він надійний проти певних проблем, таких як люди, що перебувають у спокої чи перекос. Однак невеликий розмір вибірки не є однією з тих проблем, проти яких він є надійним. Наприклад, коли розмір вибірки стає меншим, він насправді набагато чутливіший до перекосу, ніж середній.


Дякую, Джон! Насправді я вирішив використовувати медіану замість середнього з тієї, що ви написали. У мене різні зразки, всі вони мають неаусійський розподіл. Є зразок, що містить понад 50 балів, інші містять менше 10 балів, але для всіх з них я думаю, що ваш коментар є дійсним, чи не так?
марі

Маючи так мало балів, я не впевнений, що ви можете сказати про базовий розподіл. Якщо ви порівнюєте зразки, що містять менше 10, із зразками, що містять 50, і базовий розподіл не симетричний, медіана покаже ефект, навіть якщо його немає, оскільки він матиме більше упередженості у малому зразку, ніж у великого. Середина не буде.
Джон

Надалі краще розкажіть свої питання і запитайте більше про те, що вам потрібно насправді знати. Скажіть, чому ви зробили те, що ви робили до цього часу, і опишіть добре отримані вами дані. Ви отримаєте набагато кращі відповіді.
Джон

1
" невеликий розмір вибірки не є однією з тих проблем, проти яких він є надійним ", варто позначати +1 самостійно; решта - бонус
Glen_b -Встановіть Моніку

Власне кажучи, у своїй книзі Хубер зазначає, що не існує єдиної концепції надійності. Існує стійкість до людей, що втратили життя (і саме для цього медіана є надійною). Інша думка, однак, є стійкістю до помилки вимірювання, і саме для цього є середнім значенням, оскільки в середньому ці помилки вимірювання. Однак медіана дуже чутлива до коливань помилок вимірювань, оскільки вони можуть впливати на середину розподілу так само погано, як і хвости.
Стаск

12

Сокал і Рольф дають цю формулу у своїй книзі Біометрія (стор. 139). У розділі "Коментарі щодо застосовності" вони пишуть: Великі зразки з нормальної сукупності. Таким чином, я боюся, що відповідь на ваше запитання - ні. Дивіться також тут .

Одним із способів отримання стандартних інтервалів помилок та довіри для медіани у малих зразках з ненормальним розподілом було б завантаження. Ця публікація містить посилання на пакети Python для завантаження.

Увага

@whuber вказував, що завантаження медіани у невеликих зразках не є дуже інформативним, оскільки обгрунтування завантажувальної програми є асимптотичними (див. коментарі нижче).


Дякую за вашу відповідь! Я знаю, що завантаження буде альтернативою, я просто здогадувався, чи є спосіб по-різному виміряти похибку медіани. Чи є відповідь "ні" також для стандартної помилки на MEAN (той самий маленький неаусовий зразок)?
mary

@mary Для стандартної похибки середнього значення Сокал і Рол пишуть, що вона застосовується для "[...] будь-якої популяції з кінцевою дисперсією". Тож відповідь на стандартну помилку середнього виглядає так, ви можете її обчислити. Sidenote: Існують розподіли, хоча (наприклад, розподіл Коші), які не мають визначеної дисперсії або середнього значення, і в таких випадках SEM не може бути обчислена.
COOLSerdash

5
tt

@whuber Дякуємо за ваш коментар Це добре знати. Я видалив пораду щодо завантаження медіани невеликими зразками зі своєї відповіді.
COOLSerdash

1
Я не намагався припустити, що це погана порада: я хотів лише вказати на її (неминучі) обмеження. Навчитися багато з маленьких зразків важко. Але завантаження невеликих зразків удвічі загрожує, оскільки немає теоретичного обґрунтування, яке б його підтверджувало (усі виправдання асимптотичні).
whuber

12

As.Var.[m^]=14f(m)2n
mf(m)

m^

  1. Що асимптотична формула дисперсії працює для малого зразка;
  2. Що оцінена медіана досить близька до справжньої медіани;
  3. Що оцінювач щільності ядра дає точне значення.

Чим менший розмір вибірки, тим сумнівніше він стає.


3
Можливо, варто додати, що магічне число є π21.253314
Генрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.