Оцінка параметрів нормального розподілу: медіана замість середньої?


15

Загальний підхід для оцінки параметрів нормального розподілу полягає у використанні середнього та стандартного відхилення / дисперсії вибірки.

Однак якщо є якісь пережиті люди, медіана та відхилення медіани від медіани повинні бути набагато стійкішими, правда?

У деяких наборах даних, які я намагався, звичайний розподіл, оцінений N(median(x),median|xmedian(x)|) здається, набагато краще підходить, ніж класичний використанням середнього та RMS-відхилення.N(μ^,σ^)

Чи є якась причина не використовувати медіану, якщо ви припускаєте, що в наборі даних є якісь пережиті люди? Чи знаєте ви якусь посилання на цей підхід? Швидкий пошук в Google не знайшов мені корисних результатів, які обговорюють переваги використання тут медіанів (але очевидно, що "середня оцінка нормальних параметрів розподілу" не є дуже специфічним набором пошукових термінів).

Середнє відхилення, чи воно упереджене? Чи слід помножувати його на щоб зменшити зміщення?n1н

Чи знаєте ви подібні надійні підходи до оцінки параметрів для інших дистрибутивів, таких як розподіл гамми або експоненціально модифікований розподіл Гаусса (який потребує Skewness в оцінці параметрів, а люди, що втратили чинність, справді псують це значення)?


2
Якщо у вас є люди, що переживають люди, що випадають, можливо, ваш розподіл насправді не є гауссовим нормальним. Це, звичайно, не відповідає на ваше запитання, але, IMO, це можливість, якою завжди слід розважати.
sds

2
У мене немає простого, чистого, математичного розподілу. У мене є реальні дані, які за своєю природою безладно. Жоден розподіл не буде ідеальним пристосуванням, оскільки ви вже не можете впоратись із ситуацією аналітично. А випускники - це насправді мій інтерес. :-)
Еріх Шуберт

Відповіді:


15

Спостереження, що у прикладі, що включає дані, отримані із забрудненого гауссового розповсюдження, ви отримаєте кращі оцінки параметрів, що описують основну частину даних, використовуючи замість med | x - med ( x ) | де mad ( x ) :madmed|xmed(x)|mad(x)

mad=1.4826×med|xmed(x)|

--where, є фактором консистенції розроблений , щоб гарантувати , що Е ( з розуму ( х ) 2 ) = Var ( х ) , коли х є uncontaminated-- спочатку був зроблений Гауссом (Уокер , Х. (1931)).(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

Я не можу придумати жодної причини, щоб у цьому випадку не використовувати замість зразка. Низька ефективність (у Гаусса!) Божевільних може стати причиною не використовувати божевільних у вашому прикладі. Однак існують однаково надійні та високоефективні альтернативи шаленим . Один з них - Q nmedmadmadmadQn. Цей оцінювач має багато інших переваг. Він також дуже нечутливий до людей, що не люблять людей (насправді майже такий же нечутливий, як безумний). На противагу шаленому, він не будується навколо оцінки місця розташування і не передбачає, що розподіл незабрудненої частини даних є симетричним. Як і божевільний, Він заснований на статистиці замовлень, так що він завжди добре визначений, навіть коли базовий розподіл вашої вибірки не має моментів. Як і божевільний, Він має просту явну форму. Навіть більше, ніж для божевільних, я не бачу причин використовувати вибіркове стандартне відхилення замість у прикладі, який ви описуєте (див. Rousseeuw and Croux 1993 для отримання додаткової інформації про Q n ).QnQn

Що стосується останнього питання, про конкретний випадок , коли , тоxΓ(ν,λ)

med(x)λ(ν1/3)

і

mad(x)λν

(в обох випадках наближення стає хорошим, коли ), так що ν>1.5

ν^=(med(x)mad(x))2

і

λ^=mad(x)2med(x)

Дивіться Chen and Rubin (1986) про повне виведення.

  • Дж. Чен та Х. Рубін, 1986 р. Межі різниці між середньою та середньою величинами розподілу Гамма та Пуассона, Статист. Імовірно. Лет., 4, 281–283.
  • PJ Rousseeuw and C. Croux, 1993. Альтернативи журналу "Середнє відхилення середнього рівня" Американської статистичної асоціації, Vol. 88, № 424, стор 1273-1283
  • Уокер, Х. (1931). Дослідження з історії статистичного методу. Балтимор, штат Мердент: Williams & Wilkins Co. С. 24–25.

1
Φ1(0.75)11.4826

@ErichSchubert: ти маєш рацію: я забув другий зворотній .. виправлено.
user603

2
n/(n1)

1
@whuber: спасибі за це, тепер я розумію, що моє речення "це схоже по духу " легко можна зрозуміти неправильно. Я її зняв.
користувач603

1
Я зробив ExNormal частину окремим питанням: stats.stackexchange.com/questions/48907/… Але у мене є ще одне для вас: Розподіл LogNormal - обробіть додаток журналу, а потім продовжуйте як із звичайним розподілом?
Еріх Шуберт

7

Якщо ви стверджуєте, що дані є нормальними, крім деякої невеликої частки осіб, що випадають, середнє та медіанне абсолютне відхилення буде надійним до грубих помилок, але не дасть дуже ефективного використання інформації у нестабільних даних.

Якби ви знали деякі апріорі пов'язані на долю викидів можна обрізати цю пропорцію для середнього і Winsorize стандартного відхилення. Альтернативою, яка не потребує таких знань, буде використання M-оцінок для місця розташування та пов'язаних величин для дисперсії. Підвищення ефективності, якщо ваші припущення є правильними (наприклад, дані дійсно нормальні за винятком невеликого відсотка людей, що втратили люди), в деяких випадках можуть бути істотними.

nn1

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.