Для яких (симетричних) розподілів вибірка означає більш ефективний оцінювач, ніж середня вибірка?


17

Я працював, вважаючи, що медіана вибірки є більш міцною мірою центральної тенденції, ніж середня вибірка, оскільки вона ігнорує людей, що втратили похилого віку. Тому я був здивований, дізнавшись (у відповіді на інше запитання ), що для зразків, узятих із звичайного розподілу, дисперсія середньої вибірки менша, ніж дисперсія середньої вибірки (принаймні для великих n ).

Я математично розумію, чому це правда. Чи існує "філософський" погляд на це, що допоможе інтуїції щодо того, коли використовувати медіану, а не середню для інших розподілів?

Чи є математичні засоби, які допомагають швидко відповісти на питання щодо конкретного розподілу?

Відповіді:


20

Припустимо, ми обмежимо розгляд симетричними розподілами, де середнє значення та дисперсія є кінцевими (тому Коші, наприклад, виключається з розгляду).

Далі я спершу обмежуся безперервними одномодовими справами, і, здебільшого, «приємними» ситуаціями (хоча я можу повернутися пізніше і обговорити деякі інші випадки).

Відносна дисперсія залежить від розміру вибірки. Зазвичай обговорюється співвідношення ( разів більше) асимптотичних дисперсій, але слід пам’ятати, що при менших розмірах вибірки ситуація буде дещо іншою. (Медіана іноді помітно краща або гірша, ніж це могло б запропонувати асимптотична поведінка. Наприклад, при нормі з n = 3 вона має ефективність приблизно 74%, а не 63%. Асимптотична поведінка, як правило, є хорошим керівництвом при досить помірних розмір вибірки, однак.)nn=3

З асимптотиками легко впоратися:

Середнє значення: дисперсія = σ 2 .n×σ2

Медіана : дисперсія = 1n× деf(m)- висота густини на медіані.1[4f(m)2]f(m)

Отже, якщо , медіана буде асимптотично більш ефективною.f(m)>12σ

[У звичайному випадку , тому1f(m)=12πσ , звідки відносна асимптотична ефективність2/π)]1[4f(m)2]=πσ222/π

Ми можемо бачити, що дисперсія медіани буде залежати від поведінки густини дуже біля центру, тоді як дисперсія середнього значення залежить від дисперсії вихідного розподілу (на який у певному сенсі впливає щільність скрізь, і в зокрема, тим більше, як він поводиться далі від центру)

Що сказати, хоча на медіану менше впливають люди, що переживають люди, ніж середня величина, і ми часто бачимо, що вона має меншу дисперсію, ніж середня величина, коли розподіл сильно хвостить (що дає більше штатів), що насправді призводить до ефективності медіана - інлієр . Часто трапляється так, що (за фіксованою дисперсією) є тенденція, щоб двоє йшли разом.

Тобто, в широкому розумінні, оскільки хвіст стає важчим, існує тенденція (при фіксованому значенні ) розподілу отримувати одночасно "пікантніший" (більш куртозний, у вільному розумінні). Однак це не є певною річчю - це, як правило, в широкому діапазоні загальновизнаних густин, але це не завжди вдається. Коли це дотримується, дисперсія медіани зменшиться (оскільки розподіл має більше ймовірності в безпосередньому сусідстві з медіаною), тоді як дисперсія середнього значення буде постійною (тому що ми фіксували σ 2 ).σ2σ2

Отже, у різних поширених випадках медіана часто схильна робити «краще», ніж середня величина, коли хвіст важкий (але ми маємо пам’ятати, що побудувати контрприклади порівняно легко). Таким чином, ми можемо розглянути кілька випадків, які можуть показати нам те, що ми часто бачимо, але ми не повинні занадто багато їх читати, тому що важчий хвіст не йде в цілому з більш високим піком.

Ми знаємо, що медіана приблизно 63,7% настільки ж ефективна (для великих), як середня норма.n

Що з приводу, скажімо, логістичного розподілу, який, як і нормальний, приблизно параболічний щодо центру, але має більш важкі хвости (коли стає великим, вони стають експоненціальними).x

Якщо ми візьмемо параметр масштабування , щоб бути 1, логістична має дисперсію і висотою в середньому 1/4, так що 1π2/3. Ставлення дисперсій потімπ2/120.82так у великих зразках, середнійстановить приблизно 82% настільки ж ефективнимяк середнє.14f(m)2=4π2/120.82

Розглянемо ще дві щільності з експоненціально схожими хвостами, але різними піками.

По-перше, розподіл гіперболічного ( sech )sech , для якого стандартна форма має відхилення 1 і висоту в центрі 12n=5

Тут ми можемо побачити, як у міру просування через ці три щільності (тримаючи дисперсію постійною) висота на медіані збільшується:

enter image description here

1212

Якщо ми зробимо дистрибутив все ще для заданої дисперсії (можливо, зробивши хвіст важчим, ніж експоненціальний), медіана може бути набагато ефективнішою (відносно кажучи). Дійсно немає меж того, як високий цей пік може бути досягнутий.

ν=5

...

При обмежених розмірах вибірки іноді можна чітко обчислити дисперсію розподілу медіани. Якщо це неможливо - або навіть просто незручно - ми можемо використовувати моделювання для обчислення дисперсії медіани (або відношення дисперсії *) для випадкових зразків, отриманих з розподілу (саме це я зробив, щоб отримати малі зразки вибірок вище ).

* Навіть незважаючи на те, що нам часто не потрібна дисперсія середнього значення, оскільки ми можемо обчислити її, якщо знаємо дисперсію розподілу, це може бути обчислювально ефективніше, оскільки це діє як контрольна змінна (середня і медіана часто досить співвідносні).


1

f(x)=12e|xμ|,<x<
μX1,X2,,Xn2/n14nf(μ)2=14n/4=1/n<2/n

σ2=11/nn14n(1/2π)2=π2n1.57/n>1/n

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.