Я відповім на ваші запитання у зворотному порядку, у якому ви їх задали, щоб експозиція переходила від конкретного до загального.
По-перше, давайте розглянемо ситуацію, коли ви можете припустити, що, за винятком меншості осіб, які пережили люди, більша частина ваших даних може бути добре описана відомим розповсюдженням (у вашому випадку експоненціалом).
х
pХ( x ) = σ- 1exp ( - ( x - θ )σ) ,x > 0 ; σ> 0
хθ = 0
Звичайний оцінювач параметрів MLE є [0, p 506]:
θ^= хвiхi
і
σ^= прiхi- хвiхi
Ось приклад у R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
MLE дорівнює .σ≈ 2,08
На жаль, оцінки MLE дуже чутливі до присутності людей, що вижили. Наприклад, якщо я пошкоджую зразок, замінюючи 20% на :хi- хi
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
MLE з на основі пошкодженого зразка тепер
(!). Як другий приклад, якщо я пошкоджую вибірку, замінюючи 20% значень на (скажімо, якщо випадково розміщено десяткове місце):σ≈ 11.12хi100 хi
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
MLE з на основі цього другого зіпсованого зразка тепер
(!).σ≈ 54
Альтернативою сировинному MLE є: (a) знайти людей, що втратили життя, використовуючи чітке правило ідентифікації зовнішньої форми ; (b) виділити їх як помилкові дані та (c) обчислити MLE на неправдивій частині вибірки.
Найвідомішим із цих надійних правил ідентифікації зовнішніх правил є мед / божевільне правило, запропоноване Гампелем [3], який приписував це Гаусу (я проілюстрував це правило тут ). У правилі Med / mad поріг відхилення базується на припущенні, що справжні спостереження у вашій вибірці добре наближені нормальним розподілом.
Звичайно, якщо у вас є додаткова інформація (наприклад, відомо, що розподіл справжніх спостережень добре наближений розподілом пуассона, як у цьому прикладі ), це ніщо не завадить перетворити ваші дані та використовувати базове правило відхилення зовнішнього рівня мед / божевільний), але це здається мені трохи незручним для перетворення даних, щоб зберегти те, що врешті-решт є спеціальним правилом.
Мені здається набагато логічнішим зберегти дані, але адаптувати правила відхилення. Тоді ви все одно будете використовувати 3-х ступінчасту процедуру, яку я описав у першому посиланні вище, але з порогом відхилення, адаптованим до розподілу, ви підозрюєте, що хороша частина даних є. Нижче я наводжу правило відхилення в ситуаціях, коли справжні спостереження добре підходять за допомогою експоненціального розподілу. У цьому випадку ви можете побудувати хороші пороги відхилення, використовуючи таке правило:
1) оцінка використовуючи [1]:θ
θ^'= медiхi- 3,47 Qn ( x ) ln2
Qn є надійною оцінкою розкиду, яка не спрямована на симетричні дані. Він широко застосовується, наприклад , в R пакеті robustbase . Для експоненціальних розподілених даних Qn помножується на коефіцієнт узгодженості , детальніше див. [1].≈ 3,447
2) відкинути як хибні всі спостереження поза [2, с 188]
[ θ^', 9 ( 1 + 2 / н ) медiхi+ θ^']
(Коефіцієнт 9 у правилі вище отримується як 7.1 у відповіді Glen_b вище, але з використанням більш високого відрізку. Коефіцієнт (1 + 2 / n) - малий поправочний коефіцієнт вибірки, який був отриманий за допомогою моделювання в [2]. Для досить великих розмірів вибірки він по суті дорівнює 1).
3) використовувати MLE на неправдивих даних для оцінки :σ
σ^'= прi ∈ Hхi- хвi ∈ Hхi
де .Н= { i : θ^'≤ xi≤ 9 ( 1 + 2 / n ) медiхi+ θ^'}
використовуючи це правило на попередніх прикладах, ви отримаєте:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
надійна оцінка зараз
(дуже близька до значення MLE, коли дані чисті). На другому прикладі:σ≈ 2,05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
Орієнтовна оцінка зараз
(дуже близька до значення, яке ми отримали б без залишків).σ≈ 2.2
На третьому прикладі:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
Орієнтовна оцінка зараз
(дуже близька до значення, яке ми отримали б без залишків).σ≈ 2.2
Побічна перевага цього підходу полягає в тому, що він дає підмножину індексів підозрілих спостережень, які слід відміняти від решти даних, можливо, їх слід вивчити як об'єкт, що цікавить їх власне право (члени ).{ i : i ∉ H}
Тепер, для загального випадку, коли у вас недостатньо хороший розподіл кандидатів, який би відповідав основній частині ваших спостережень, крім того, що не знаєте, що симетричний розподіл не буде робити, ви можете скористатись відрегульованою коробкою [4]. Це узагальнення boxplot, яке враховує (непараметричний і не відрізняється надійністю) міру косості ваших даних (так що, коли основна частина даних симетрична, згортається до звичайної boxplot). Ви також можете перевірити цю відповідь для ілюстрації.
- [0] Джонсон Н.Л., Коц С., Балакришнан Н. (1994). Постійні універсальні дистрибуції, том 1, 2-е видання
- [1] Rousseeuw PJ і Croux C. (1993). Альтернативи середньої абсолютної девіації. Журнал Американської статистичної асоціації, Vol. 88, № 424, стор 1273--1283.
- [2] Дж. К. Патель, CH Кападія та Д. Б. Оуен, Декер (1976). Довідник статистичних розподілів.
- [3] Гампель (1974). Крива впливу та її роль у надійній оцінці. Журнал Американської статистичної асоціації Vol. 69, № 346 (черв., 1974), стор 383-393.
- [4] Вандервієрен, Е., Хуберт, М. (2004) "Налагоджена коробка для косого розподілу". Обчислювальна статистика та аналіз даних Том 52, Випуск 12, 15 серпня 2008 р., Сторінки 5186–5201.
1.5*IQR
визначення чужоземця не є загальновизнаним. Спробуйте розвантажити своє питання та розгорнути проблему, яку ви намагаєтеся вирішити.