Ключова ідея полягає в тому, що розподіл вибірки медіани просто виразити з точки зору функції розподілу, але складніше виразити з точки зору медіанного значення. Як тільки ми зрозуміємо, як функція розподілу може перераховувати значення як ймовірності і знову, можна легко отримати точний розподіл вибірки медіани. Невеликий аналіз поведінки функції розподілу біля її медіани потрібен, щоб показати, що це асимптотично нормально.
(Цей же аналіз працює для розподілу вибірки будь-якого квантилу, а не лише медіани.)
Я не буду робити жодної спроби бути суворим у цій експозиції, але я виконую це в кроках, які легко виправдані суворо, якщо у вас є розум зробити це.
Інтуїція
Це знімки коробки, що містить 70 атомів гарячого атомного газу:
У кожному зображенні я знайшов розташування, зображене червоною вертикальною лінією, яка розбиває атоми на дві рівні групи між лівою (намальованою як чорні точки) та правою (білі крапки). Це медіана позицій: 35 атомів лежать зліва і 35 справа. Медіани змінюються через те, що атоми рухаються випадково навколо коробки.
Ми зацікавлені в розподілі цієї середньої позиції. На таке запитання відповідає відповідь на мою процедуру: давайте спочатку намалюємо вертикальну лінію десь, скажімо, у розташуванні . Який шанс, що половина атомів буде зліва від а половина - праворуч? Атоми зліва окремо мали шанси бути ліворуч. Атоми праворуч окремо мали шанси справа. Якщо припустити, що їхні позиції є статистично незалежними, шанси збільшуються, даючи шанс саме цієї конфігурації. Еквівалентну конфігурацію можна було отримати для різного розщеплення атомів на дваx x 1 - x x 35 ( 1 - x ) 35 70 35xxx1−xx35(1−x)357035-елементи штук. Додавання цих цифр для всіх можливих таких розбивок дає шанс
Pr(x is a median)=Cxn/2(1−x)n/2
де - загальна кількість атомів, а пропорційне кількості розщеплень атомів на дві рівні підгрупи.C nnCn
Ця формула визначає розподіл медіани як бета розподіл(n/2+1,n/2+1) .
Тепер розглянемо коробку з більш складною формою:
Знову медіани змінюються. Оскільки ящик низький поблизу від центру, його об’єму там не так багато: невелика зміна об’єму, зайнятого лівою половиною атомів (чорні ще раз) - або, ми можемо також визнати, область зліва , як показано на цих фігурах - відповідає щодо великого зміни в горизонтальному положенні медіани. Насправді, оскільки площа, підлягає невеликому горизонтальному ділянці коробки, пропорційна висоті там, зміни медіани поділяються на висоту коробки. Це призводить до того, що медіана буде більшою мірою для цього поля, ніж для квадратної коробки, оскільки ця настільки нижча посередині.
Коротше кажучи, коли ми вимірюємо положення медіани за площею (ліворуч та праворуч), оригінальний аналіз (для квадратного поля) залишається незмінним. Форма коробки лише ускладнює розподіл, якщо ми наполягаємо на вимірюванні медіани з точки зору її горизонтального положення. Коли ми це робимо, залежність між областю та поданням положення обернено пропорційна висоті коробки.
З цих картинок можна дізнатися більше. Зрозуміло, що, коли в (або) вікні мало атомів, є більший шанс, що половина з них може випадково закрутитися, скупчившись далеко в будь-яку сторону. Зі збільшенням кількості атомів потенціал такого екстремального дисбалансу зменшується. Щоб відстежити це, я взяв "фільми" - довгу серію з 5000 кадрів - для вигнутої коробки, заповненої , потім , потім і нарешті атомами, і зазначив медіанів. Ось гістограми медіанних положень:15 75 37531575375
Зрозуміло, що для досить великої кількості атомів розподіл їх серединного положення починає виглядати дзвониково і стає вужчим: це виглядає як результат теореми центральної межі, чи не так?
Кількісні результати
Звичайно, "поле" зображує щільність ймовірності деякого розподілу: його верхня частина - графік функції щільності (PDF). Таким чином, області представляють ймовірності. Розміщення точок випадковим чином і незалежно всередині коробки та дотримання їх горизонтальних положень є одним із способів скласти вибірку з розподілу. (Це ідея, що стоїть за вибіркою відхилення. )n
Наступна фігура з'єднує ці ідеї.
Це виглядає складно, але це справді досить просто. Тут є чотири споріднені сюжети:
Верхній графік показує PDF розподілу разом з однією випадковою вибіркою розміру . Значення, що перевищують медіану, відображаються у вигляді білих крапок; значення менше, ніж медіана як чорні точки. Для цього не потрібна вертикальна шкала, оскільки ми знаємо, що загальна площа - це єдність.n
Середній графік - це функція кумулятивного розподілу для одного і того ж розподілу: для позначення ймовірності використовується висота . Він поділяє свою горизонтальну вісь з першим сюжетом. Його вертикальна вісь повинна йти від до оскільки вона представляє ймовірності.101
Лівий сюжет призначений для читання збоку: це PDF- дистрибутив Beta . Він показує, як буде змінюватись медіана у графі, коли медіана вимірюється в частині ліворуч та праворуч від середини (а не вимірюється її горизонтальним положенням). Я намалював випадкових точок з цього PDF, як показано, і з'єднав їх горизонтальними пунктирними лініями до відповідних місць на оригінальному CDF: саме так обсяги (вимірювані зліва) перетворюються на позиції (вимірюються вгорі, в центрі та нижня графіка). Одна з цих точок насправді відповідає медіані, показаній у верхньому сюжеті; Я намалював суцільну вертикальну лінію, щоб це показати.16(n/2+1,n/2+1)16
Нижній графік - це щільність вибірки медіани, виміряна її горизонтальним положенням. Він отримується шляхом перетворення ділянки (на лівій ділянці) в положення. Формула перетворення задається оберненою стороною вихідного CDF: це просто визначення зворотного CDF! (Іншими словами, CDF перетворює положення в область зліва; зворотний CDF перетворюється назад з області в положення.) Я побудував вертикальні штрихові лінії, що показують, як випадкові точки з лівої ділянки перетворюються на випадкові точки в нижній ділянці . Цей процес читання впоперек, а потім вниз говорить нам, як перейти від області до місця.
Нехай - CDF вихідного розподілу (середній графік), - CDF розподілу Beta. Щоб знайти ймовірність того, що медіана лежить зліва від деякої позиції , перше використання , щоб отримати область зліва від в коробці: це сам по собі. Розподіл бета зліва повідомляє нам шанс того, що половина атомів буде лежати в межах цього обсягу, даючи : це CDF середнього положення . Щоб знайти його PDF (як показано на нижньому графіку), візьміть похідну:G x F x F ( x ) G ( F ( x ) )FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
де - PDF (верхній графік), а - Beta PDF (лівий графік).fg
Це точна формула розподілу медіани для будь-якого безперервного розподілу. (З певною обережністю в інтерпретації це може бути застосоване до будь-якого розповсюдження, незалежного чи постійного чи ні)
Асимптотичні результати
Коли дуже великий і не має стрибка на медіані, медіана вибірки повинна сильно відрізнятися навколо справжньої медіани розподілу. Крім того, якщо PDF є безперервним поблизу , у попередній формулі не сильно зміниться від його значення в заданого Більше того, також не сильно зміниться від свого значення там: до першого порядку,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Таким чином, з набуваючим кращого наближення, коли зростає,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
Це лише зміна місця розташування та масштабу бета-версії. Зміна шкали поділить її відмінність на (що краще бути ненульовим!). Між іншим, дисперсія Beta дуже близька до .f(μ)f(μ)2(n/2+1,n/2+1)n/4
Цей аналіз можна розглядати як застосування методу Дельта .
Нарешті, бета приблизно нормальна для великих . Є багато способів побачити це; мабуть, найпростіше - подивитися на логарифм його PDF поблизу :(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(Константи і просто нормалізують загальну площу до одиниці.) Через третій порядок у , це те саме, що і журнал Звичайного PDF з дисперсією (Цей аргумент робиться суворим за допомогою використання характерних або накопичувальних функцій генерації замість журналу PDF.)CC′x,1/(4n).
Виклавши це взагалі, ми робимо висновок про це
Медіана розподілу вибірки має відхилення приблизно ,1/(4nf(μ)2)
і це приблизно нормально для великих ,n
все за умови, що PDF є безперервним та ненульовим на медіаніfμ.