Центральна гранична теорема для медіанів вибірки


54

Якщо я обчислюю медіану достатньо великої кількості спостережень, проведених з одного і того ж розподілу, чи вказує центральна гранична теорема про те, що розподіл медіанів буде наближатись до нормального розподілу? Я розумію, що це правда за допомогою великої кількості зразків, але чи так це і з медіанами?

Якщо ні, то який основний розподіл медіанів вибірки?


9
Вам потрібні деякі умови регулярності, щоб медіана мала нормальний розподіл при зміні граничної межі. Щоб побачити, що може піти не так, розглянемо будь-який розподіл за обмеженою кількістю очок, скажімо, рівномірним на . X{1,0,1}
кардинал

5
Щодо умов регулярності: Якщо базовий розподіл має щільність, яка є диференційованою (справжньою) медіаною, то середня вибірки матиме асимптотичний нормальний розподіл з дисперсією, яка залежить від зазначеної похідної. Це більш справедливо для довільних квантилів.
кардинал

6
@cardinal Я вважаю, що вам потрібні додаткові умови: коли густина є другою диференційованою, дорівнює медіані нулю і має там нуль першої похідної, тоді асимптотичний розподіл медіани вибірки буде бімодальним.
whuber

4
@whuber: Так, оскільки щільність (не її похідна, як я випадково зазначив раніше) вступає в дисперсію як зворотна, значення щільності в цій точці не повинно бути нульовим. Вибачте за скасування цієї умови!
кардинал

4
Елементарні контрприклади можуть бути створені за допомогою будь-якого розподілу, який призначає ймовірність до інтервалу та ймовірності до де наприклад a Бернуллі ( ). Медіани вибірки будуть меншими або рівними так часто, наскільки вони будуть більшими або дорівнюють . Шанс, що медіана не в підходить до для великих проб, фактично залишаючи "пробіл" у1/2(,μ]1/2[μ+δ,)δ>0,(1/2)μ=0,δ=1μμ+δ(μ,μ+δ)0(μ,μ+δ)в обмежувальному розподілі - що, очевидно, тоді буде ненормативним, як би воно не було стандартизовано.
whuber

Відповіді:


38

Якщо ви працюєте з точки зору змінних індикаторів (тобто якщо і іншому випадку), ви можете безпосередньо застосувати центральну граничну теорему до середнього значення , і, використовуючи метод Delta , перетворити це на асимптотическое нормальний розподіл для , що , в свою чергу , означає , що ви отримаєте асимптотическую нормальність для стаціонарних квантилів .Zi=1Xix0ZF - 1 X ( ˉ Z ) XFX1(Z¯)X

Тож не лише медіану, а квартілі, 90-й відсоток, ... і т.д.

Якщо ми говоримо про квантиль вибірок у досить великих зразках, ми отримаємо, що він приблизно матиме нормальне розподіл із середнім м популяції та дисперсією .qqxqq(1q)/(nfX(xq)2)

Отже, для медіани ( ) дисперсія в досить великих зразках буде приблизно .q=1/21/(4nfX(μ~)2)

Вам потрібні всі умови на цьому шляху, щоб, звичайно, це не спрацювало у всіх ситуаціях, але для постійних розподілів, де щільність чисельності населення є позитивною та диференційованою тощо, ...

Крім того, це не вдається для екстремальних квантилів, оскільки CLT не забиває туди (середнє значення Z не буде асимптотично нормальним). Вам потрібна інша теорія для екстремальних значень.


Редагувати: критика Юбера правильна; це буде працювати, якби була медіаною популяції, а не вибірковою медіаною. Аргумент потрібно змінити, щоб реально працювати належним чином.x


5
Я думаю, що один логічний фрагмент цього пояснення може бути відсутнім: як саме використовуються індикатори для отримання зразків медіанів? Я бачу, як коли лежить в основі медіани, індикатор буде працювати: але цей показник не збігається з медіаною вибірки або будь-якою її функцією. X ixxXix
whuber

Як ви переходите від асимптотичних нормальних розподілів для щоб отримати асимптотичну нормальність для фіксованих квантилів X? Редагувати: я зрозумів, що стає відсотковим значенням 0-100%, тому квантильні значення асимптотично нормальні¯ ZFX1(Z¯)Z¯
adam

48

Ключова ідея полягає в тому, що розподіл вибірки медіани просто виразити з точки зору функції розподілу, але складніше виразити з точки зору медіанного значення. Як тільки ми зрозуміємо, як функція розподілу може перераховувати значення як ймовірності і знову, можна легко отримати точний розподіл вибірки медіани. Невеликий аналіз поведінки функції розподілу біля її медіани потрібен, щоб показати, що це асимптотично нормально.

(Цей же аналіз працює для розподілу вибірки будь-якого квантилу, а не лише медіани.)

Я не буду робити жодної спроби бути суворим у цій експозиції, але я виконую це в кроках, які легко виправдані суворо, якщо у вас є розум зробити це.


Інтуїція

Це знімки коробки, що містить 70 атомів гарячого атомного газу:

Фігура 1

У кожному зображенні я знайшов розташування, зображене червоною вертикальною лінією, яка розбиває атоми на дві рівні групи між лівою (намальованою як чорні точки) та правою (білі крапки). Це медіана позицій: 35 атомів лежать зліва і 35 справа. Медіани змінюються через те, що атоми рухаються випадково навколо коробки.

Ми зацікавлені в розподілі цієї середньої позиції. На таке запитання відповідає відповідь на мою процедуру: давайте спочатку намалюємо вертикальну лінію десь, скажімо, у розташуванні . Який шанс, що половина атомів буде зліва від а половина - праворуч? Атоми зліва окремо мали шанси бути ліворуч. Атоми праворуч окремо мали шанси справа. Якщо припустити, що їхні позиції є статистично незалежними, шанси збільшуються, даючи шанс саме цієї конфігурації. Еквівалентну конфігурацію можна було отримати для різного розщеплення атомів на дваx x 1 - x x 35 ( 1 - x ) 35 70 35xxx1xx35(1x)357035-елементи штук. Додавання цих цифр для всіх можливих таких розбивок дає шанс

Pr(x is a median)=Cxn/2(1x)n/2

де - загальна кількість атомів, а пропорційне кількості розщеплень атомів на дві рівні підгрупи.C nnCn

Ця формула визначає розподіл медіани як бета розподіл(n/2+1,n/2+1) .

Тепер розглянемо коробку з більш складною формою:

Малюнок 2

Знову медіани змінюються. Оскільки ящик низький поблизу від центру, його об’єму там не так багато: невелика зміна об’єму, зайнятого лівою половиною атомів (чорні ще раз) - або, ми можемо також визнати, область зліва , як показано на цих фігурах - відповідає щодо великого зміни в горизонтальному положенні медіани. Насправді, оскільки площа, підлягає невеликому горизонтальному ділянці коробки, пропорційна висоті там, зміни медіани поділяються на висоту коробки. Це призводить до того, що медіана буде більшою мірою для цього поля, ніж для квадратної коробки, оскільки ця настільки нижча посередині.

Коротше кажучи, коли ми вимірюємо положення медіани за площею (ліворуч та праворуч), оригінальний аналіз (для квадратного поля) залишається незмінним. Форма коробки лише ускладнює розподіл, якщо ми наполягаємо на вимірюванні медіани з точки зору її горизонтального положення. Коли ми це робимо, залежність між областю та поданням положення обернено пропорційна висоті коробки.

З цих картинок можна дізнатися більше. Зрозуміло, що, коли в (або) вікні мало атомів, є більший шанс, що половина з них може випадково закрутитися, скупчившись далеко в будь-яку сторону. Зі збільшенням кількості атомів потенціал такого екстремального дисбалансу зменшується. Щоб відстежити це, я взяв "фільми" - довгу серію з 5000 кадрів - для вигнутої коробки, заповненої , потім , потім і нарешті атомами, і зазначив медіанів. Ось гістограми медіанних положень:15 75 37531575375

Малюнок 3

Зрозуміло, що для досить великої кількості атомів розподіл їх серединного положення починає виглядати дзвониково і стає вужчим: це виглядає як результат теореми центральної межі, чи не так?


Кількісні результати

Звичайно, "поле" зображує щільність ймовірності деякого розподілу: його верхня частина - графік функції щільності (PDF). Таким чином, області представляють ймовірності. Розміщення точок випадковим чином і незалежно всередині коробки та дотримання їх горизонтальних положень є одним із способів скласти вибірку з розподілу. (Це ідея, що стоїть за вибіркою відхилення. )n

Наступна фігура з'єднує ці ідеї.

Малюнок 4

Це виглядає складно, але це справді досить просто. Тут є чотири споріднені сюжети:

  1. Верхній графік показує PDF розподілу разом з однією випадковою вибіркою розміру . Значення, що перевищують медіану, відображаються у вигляді білих крапок; значення менше, ніж медіана як чорні точки. Для цього не потрібна вертикальна шкала, оскільки ми знаємо, що загальна площа - це єдність.n

  2. Середній графік - це функція кумулятивного розподілу для одного і того ж розподілу: для позначення ймовірності використовується висота . Він поділяє свою горизонтальну вісь з першим сюжетом. Його вертикальна вісь повинна йти від до оскільки вона представляє ймовірності.101

  3. Лівий сюжет призначений для читання збоку: це PDF- дистрибутив Beta . Він показує, як буде змінюватись медіана у графі, коли медіана вимірюється в частині ліворуч та праворуч від середини (а не вимірюється її горизонтальним положенням). Я намалював випадкових точок з цього PDF, як показано, і з'єднав їх горизонтальними пунктирними лініями до відповідних місць на оригінальному CDF: саме так обсяги (вимірювані зліва) перетворюються на позиції (вимірюються вгорі, в центрі та нижня графіка). Одна з цих точок насправді відповідає медіані, показаній у верхньому сюжеті; Я намалював суцільну вертикальну лінію, щоб це показати.16(n/2+1,n/2+1)16

  4. Нижній графік - це щільність вибірки медіани, виміряна її горизонтальним положенням. Він отримується шляхом перетворення ділянки (на лівій ділянці) в положення. Формула перетворення задається оберненою стороною вихідного CDF: це просто визначення зворотного CDF! (Іншими словами, CDF перетворює положення в область зліва; зворотний CDF перетворюється назад з області в положення.) Я побудував вертикальні штрихові лінії, що показують, як випадкові точки з лівої ділянки перетворюються на випадкові точки в нижній ділянці . Цей процес читання впоперек, а потім вниз говорить нам, як перейти від області до місця.

Нехай - CDF вихідного розподілу (середній графік), - CDF розподілу Beta. Щоб знайти ймовірність того, що медіана лежить зліва від деякої позиції , перше використання , щоб отримати область зліва від в коробці: це сам по собі. Розподіл бета зліва повідомляє нам шанс того, що половина атомів буде лежати в межах цього обсягу, даючи : це CDF середнього положення . Щоб знайти його PDF (як показано на нижньому графіку), візьміть похідну:G x F x F ( x ) G ( F ( x ) )FGxFxF(x)G(F(x))

ddxG(F(x))=G(F(x))F(x)=g(F(x))f(x)

де - PDF (верхній графік), а - Beta PDF (лівий графік).fg

Це точна формула розподілу медіани для будь-якого безперервного розподілу. (З певною обережністю в інтерпретації це може бути застосоване до будь-якого розповсюдження, незалежного чи постійного чи ні)


Асимптотичні результати

Коли дуже великий і не має стрибка на медіані, медіана вибірки повинна сильно відрізнятися навколо справжньої медіани розподілу. Крім того, якщо PDF є безперервним поблизу , у попередній формулі не сильно зміниться від його значення в заданого Більше того, також не сильно зміниться від свого значення там: до першого порядку,nFμfμ f(x)μ,f(μ).F

F(x)=F(μ+(xμ))F(μ)+F(μ)(xμ)=1/2+f(μ)(xμ).

Таким чином, з набуваючим кращого наближення, коли зростає,n

g(F(x))f(x)g(1/2+f(μ)(xμ))f(μ).

Це лише зміна місця розташування та масштабу бета-версії. Зміна шкали поділить її відмінність на (що краще бути ненульовим!). Між іншим, дисперсія Beta дуже близька до .f(μ)f(μ)2(n/2+1,n/2+1)n/4

Цей аналіз можна розглядати як застосування методу Дельта .

Нарешті, бета приблизно нормальна для великих . Є багато способів побачити це; мабуть, найпростіше - подивитися на логарифм його PDF поблизу :(n/2+1,n/2+1)n1/2

log(C(1/2+x)n/2(1/2x)n/2)=n2log(14x2)+C=C2nx2+O(x4).

(Константи і просто нормалізують загальну площу до одиниці.) Через третій порядок у , це те саме, що і журнал Звичайного PDF з дисперсією (Цей аргумент робиться суворим за допомогою використання характерних або накопичувальних функцій генерації замість журналу PDF.)CCx,1/(4n).

Виклавши це взагалі, ми робимо висновок про це

  • Медіана розподілу вибірки має відхилення приблизно ,1/(4nf(μ)2)

  • і це приблизно нормально для великих ,n

  • все за умови, що PDF є безперервним та ненульовим на медіаніfμ.


Мені подобається той 4-й показник. Ви зробили це за допомогою R?
EngrStudent

@Engr Я, мабуть, міг би зробити так, як це R, можливо, використовуючи layout, але насправді це було зроблено з Mathematica 9.
whuber

1
«Це штука краси.
EngrStudent

@whuber, чи це не бета (n / 2 + 1, n / 2 + 1) під Beta (1,1) раніше? Див., Наприклад, ine.pt/revstat/pdf/rs080204.pdf
Tim

1
@Tim Я не розумію релевантності посилання на попередній, але я вдячний вам, вказуючи, що правильна назва розподілу Beta, визначене в розділі "Інтуїція", - Beta . Я виправлю це де б це не було (що є в кількох місцях обговорення). (n/2+1,n/2+1)
whuber

18

@EngrStudent, що висвітлює відповідь, говорить про те, що ми повинні очікувати різних результатів, коли розподіл безперервний , і коли він дискретний ("червоні" графіки, де асимптотичний розподіл серіалу вибірки не виразно виглядає нормальним, відповідають розподілам двочленних (3), Геометричні (11), Гіпергеометричні (12), Негативні двочлени (14), Пуассона (18), Дискретна однорідна (22).

І справді це так. Коли розподіл дискретний, справи ускладнюються. Я надам доказ для абсолютно безперервного випадку, фактично роблячи не більше, ніж деталізую відповідь, яку вже дав @Glen_b, а потім я трохи обговорю, що відбувається, коли розподіл дискретний, надаючи також нещодавню довідку для всіх, хто зацікавлений у дайвінгу в.

АБСОЛЮТНО НЕПЕРЕКОННІ
Розглянемо сукупність iid абсолютно неперервних випадкових змінних з функцією розподілу (cdf) і функцією щільності . Визначте де - функція індикатора. Тому - Bernoulli rv, з {X1,...Xn}FX(x)=P(Xix)FX(x)=fX(x)ZiI{Xix}I{}Zi

E(Zi)=E(I{Xix})=P(Xix)=FX(x),Var(Zi)=FX(x)[1FX(x)],i

Нехай - вибіркове середнє значення цих iid Бернуллі, визначене для фіксованого як що означає, що Теорема центрального граничного значення застосовується, і ми маємоYn(x)x

Yn(x)=1ni=1nZi
E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1FX(x)]

n(Yn(x)FX(x))dN(0,FX(x)[1FX(x)])

Зауважимо, що тобто не що інше, як емпірична функція розподілу. Застосовуючи "метод Дельти", ми маємо, що для безперервної та диференційованої функції з ненульовою похідною у цікавій точці ми отримуємоYn(x)=F^n(x)g(t)g(t)

n(g[F^n(x)]g[FX(x)])dN(0,FX(x)[1FX(x)](g[FX(x)])2)

Тепер виберіть де позначає зворотну функцію. Це неперервна і диференційована функція (оскільки є), а теоремою оберненої функції ми маємоg(t)FX1(t),t(0,1)1FX(x)

g(t)=ddtFX1(t)=1fx(FX1(t))

Вставлення цих результатів на в асимптотичний результат, отриманий дельта-методомg

n(FX1(F^n(x))FX1(FX(x)))dN(0,FX(x)[1FX(x)][fx(FX1(FX(x)))]2)

і спрощення,

n(FX1(F^n(x))x)dN(0,FX(x)[1FX(x)][fx(x)]2)

.. для будь-якого фіксованого . Тепер встановіть , (справжню) медіану населення. Тоді ми маємо і вищенаведений загальний результат стає для нашого випадку,xx=mFX(m)=1/2

n(FX1(F^n(m))m)dN(0,1[2fx(m)]2)

Але сходить до медіани вибірки . Це відбувається томуFX1(F^n(m))m^

FX1(F^n(m))=inf{x:FX(x)F^n(m)}=inf{x:FX(x)1ni=1nI{Xim}}

Права частина нерівності сходиться до а найменший для якого зрештою , є медіаною вибірки.1/2xFX1/2

Таким чином ми отримуємо

n(m^m)dN(0,1[2fx(m)]2)
що є центральним Гранична теорема для медіани вибірки для абсолютно безперервних розподілів.

Дискретні розподілу
Якщо розподіл є дискретним (або коли зразок містить зв'язку) була висловлена думка , що «класичне» визначення вибіркових квантилів, і , отже , медіани також, може ввести в оману , в першу чергу , як теоретичне поняття , щоб бути використовується для вимірювання того, що намагається виміряти квантовими елементами.
У будь-якому випадку було імітовано, що згідно з цим класичним визначенням (єдиним, яке ми всі знаємо), асимптотичний розподіл медіани вибірки є ненормативним та дискретним розподілом.

Альтернативне визначення вибіркових квантилів - за допомогою поняття функції "середнього розподілу", яка визначається як

Fmid(x)=P(Xx)12P(X=x)

Визначення квантових зразків через поняття функції середини розподілу можна розглядати як узагальнення, яке може охопити як особливі випадки безперервні розподіли, але також і не дуже безперервні.

У випадку дискретних розподілів, серед інших результатів, було встановлено, що середня вибірка, визначена за допомогою цієї концепції, має асимптотично нормальний розподіл з ... детально розгляданою дисперсією.

Більшість із них є останніми результатами. Довідково: Ma, Y., Genton, MG, & Parzen, E. (2011). Асимптотичні властивості вибіркових квантилів дискретних розподілів. Аннали Інституту статистичної математики, 63 (2), 227-243. , де можна знайти дискусію та посилання на старішу відповідну літературу.


2
(+1) Для статті. Це відмінна відповідь.
Алекс Вільямс

Чи можете ви пояснити, чому переходить до медіани вибірки ? FX1(F^n(m))m^
kasa

Я знаю, що при розподілі, але я не бачу, як середня вибірка дорівнюєF^n(m)FX(m)m^FX1(F^n(m))
kasa

1
@kasa Я трохи розробив це питання.
Алекос Пападопулос

Мені дуже шкода, що це доводиться знову: Але найменший для якого , є медіаною популяції, а не медіаною вибірки, чи не так? xFX(x)1/2
kasa

10

Так, це не тільки для медіани, але і для будь-якого зразка. Копіюючи цю статтю , написану Т. Ф. Фергюсоном, професором UCLA (його сторінка тут ), яка цікаво стосується спільного розподілу середньої вибірки та квантових зразків, ми маємо:

Нехай - тобто з функцією розподілу , щільністю , середньою та кінцевою дисперсією . Нехай і нехай позначає -й квантиль , так що . Припустимо, що щільність неперервна і додатна при . Нехай позначає зразок -го квантиля. ТодіX1,...,XnF(x)f(x)μσ20<p<1xppFF(xp)=pf(x)xpYn=X(n:np)p

n(Ynxp)dN(0,p(1p)/(f(xp))2)

Для (медіана), і у вас є CLT для медіанів,p=1/2xp=m

n(Ynm)dN(0,[2f(m)]2)

1
Приємно. Варто зазначити, що дисперсію вибіркової медіани оцінити не так просто, як середня для вибірки.
Майкл М

@Alecos - як ти отримав дві відповіді на це питання?
EngrStudent

1
@EngrStudent Система це дозволяє, вона просто просить переконатися, що ви дійсно хочете додати другу відповідь.
Алекос Пападопулос

8

Мені подобається аналітична відповідь, дана Glen_b. Це гарна відповідь.

Для цього потрібна картина. Мені подобаються картинки.

Ось області еластичності у відповіді на запитання:

  • У світі існує велика кількість розповсюджень. Пробіг, ймовірно, змінюється.
  • Достатній має різні значення. Для зустрічного прикладу до теорії іноді потрібен єдиний зустрічний приклад, щоб "достатньо" було досягнуто. Для демонстрації низьких показників дефектів з використанням біноміальної невизначеності можуть знадобитися сотні чи тисячі зразків.

Для стандартного звичайного я використовував такий код MatLab:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

і я отримав наступний сюжет як вихід:

введіть тут опис зображення

То чому б не зробити цього для інших 22-х «вбудованих» дистрибутивів, за винятком використання prob-графіків (де пряма означає дуже нормальну)?

введіть тут опис зображення

І ось його вихідний код:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

Коли я бачу аналітичний доказ, я можу подумати, що "теоретично вони всі можуть відповідати", але коли я спробую це, я можу загартувати, що "існує декілька способів, як це працює не так добре, часто включаючи дискретні або дуже обмежені" цінності ", і це може змусити мене бути більш уважним щодо застосування теорії до всього, що коштує грошей.

Удачі.


Я помиляюсь, або розподіл, для якого медіана зазвичай не розподіляється, є дискретним?
SeF
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.