Зовнішнє виявлення на перекошених дистрибутивах


24

За класичним визначенням зовнішньої форми як точки даних, що витісняє 1,5 * IQR від верхнього або нижнього кватилі, існує припущення про несказаний розподіл. Для косих розподілів (Експоненціальна, Пуассонова, Геометрична тощо) найкращий спосіб виявити сторонність шляхом аналізу перетворення вихідної функції?

Наприклад, дистрибутиви, керовані експоненціальним розподілом, можуть бути перетворені за допомогою функції журналу - в який момент прийнятно шукати іншу людину на основі того ж визначення IQR?


4
На цьому сайті є багато запитань щодо оцінки випускників. Одне, що вам потрібно буде додати тут, щоб отримати обґрунтовану відповідь, це те, що ви насправді намагаєтесь зробити або дізнатись. Але для початківців 1.5*IQRвизначення чужоземця не є загальновизнаним. Спробуйте розвантажити своє питання та розгорнути проблему, яку ви намагаєтеся вирішити.
Іван

Заява про те, що значення, що перевищує 1,5 IQR, є надмірним, просто дурниця. Дані, що перевищують 1,5 IQR, цілком відповідали б нескінченній кількості розповсюджень, і оскільки розмір вибірки стає великим, можна було б мати майже ідеальну впевненість у тому, що такі дані НЕ переживають людей.
вовчі

Відповіді:


18

За класичним визначенням зовнішньої форми як точки даних витісняє 1,5 * IQR від верхнього або нижнього кварталу,

Це правило для визначення точок поза кінцями вусів у коробці. Сам Тукі, без сумніву, заперечував би називати їх позаштатними на цій основі (він не обов'язково розглядав точки, що виходять за ці межі, як непрацівники). Це скоріше моменти, які - якщо очікували, що ваші дані будуть із розповсюдження, дещо схожого на звичайний розподіл, - можна піддавати подальшому дослідженню (наприклад, перевірити, наприклад, ви не перенесли двозначні цифри) - максимум ці можуть бути потенційними людьми. Як зазначає Нік Кокс у коментарях до цієї відповіді , хвіст багатьох таких пунктів сприймається більше як показник того, що повторне вираження може бути придатним, ніж вказівкою на необхідність вважати очки випадаючими.

існує припущення про не скошений розподіл.

Я припускаю, що під «несказаним» ви маєте на увазі симетричний. Тоді припущення - це більше, ніж просто це. Сильне, але симетричне розподіл може мати багато точок поза межами цього правила.

Для косих розподілів (Експоненціальна, Пуассонова, Геометрична тощо) найкращий спосіб виявити сторонність шляхом аналізу перетворення вихідної функції?

Це залежить від того, що являє собою сторонність для ваших цілей. Немає жодного визначення, яке підходить для кожної мети - дійсно, як правило, вам, мабуть, краще робити інші речі, які (скажімо,) вибирають люди, що втрачають люди, і опускають їх.

Для експоненціальної чи геометричної форми ви можете зробити аналогічний обчислення тому, що і для боксплотів, але який би ідентифікував подібну частку лише в правому хвості (у вас не буде точок низького рівня, визначених у експоненціальній чи геометричній) ... або ви можете зробити щось інше.

У великих зразках боксер відмічає приблизно 0,35% балів на кожному кінці, або приблизно 0,7% в цілому. Наприклад, для експоненціалу можна позначити деяку кратну медіану. Якщо ви хотіли позначити приблизно 0,7% балів за фактичну експоненцію, це дозволить позначати бали за межею приблизно в 7,1 рази.

Позначення балів вище 7,1 рази середньої для n = 1000 зазвичай становитиме від 0,4% до 1,1% значень:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

Наприклад, дистрибутиви, керовані експоненціальним розподілом, можуть бути перетворені за допомогою функції журналу - в який момент прийнятно шукати іншу людину на основі того ж визначення IQR?

Це повністю залежить від того, що ви маєте на увазі під "прийнятним". Однак зауважте, що -

i) отримане розподіл насправді не є симетричним, а чітко лівим косим.

введіть тут опис зображення

Як результат, зазвичай ви позначаєте лише точки в лівому кінці (тобто близько до нуля, де ви очікуєте, що експоненціальні значення так чи інакше будуть), а не в правому (там, де можуть бути "залишки"), якщо вони справді не є крайній.

ii) придатність такого правила буде сильно залежати від того, що ви робите.

Якщо ви стурбовані дивним значенням, яке впливає на ваш висновок, вам, ймовірно, краще скористатися надійними процедурами, ніж офіційно ідентифікувати людей, що не мають права.

Якщо ви дійсно хочете використовувати звичайне правило для трансформованих експоненціальних даних або даних Пуассона, я б принаймні запропонував застосувати його до квадратного кореня для Пуассона (доки середнє значення не буде занадто малим, воно повинно бути приблизно нормально) і кубикувати корінь або навіть четвертий корінь для експоненціалу (і, можливо, за розширенням, геометричного).

або, можливо, , як вперетворенні АнскомбаХ+38

введіть тут опис зображення

Для експоненціалу у великих зразках куб-корінний підхід, як правило, позначає точки лише у верхньому хвості (приблизно з однаковою швидкістю він позначає їх у верхньому хвості для нормальної), а четвертий корінь підходить до обох хвостів (трохи більше в нижньому хвості, загалом при чомусь близько 40% від норми це робить для нормальної). З можливостей, корінь куба має для мене більше сенсу, ніж інші два, але я б не радив використовувати це як якесь жорстке і швидке правило.


1
"Сильне, але симетричне розподіл може мати багато точок поза межами цього правила." Завжди рівно 50% усіх точок в IQR, чи не так?
JulienD

2
(Q1-1.5×IQR,Q3+1.5×IQR)

@Glen_b Верхній поріг відхилення для експоненції у вашій відповіді передбачає, що параметр shift (або тета) відомий. Я думаю, що це слід згадати.
user603

1
@ user603 Термін " експоненціальний розподіл " (також див. тут ) без будь-яких модифікуючих прикметників (наприклад, "зміщений" або "двопараметричний") найбільш умовно відноситься до однопараметричної версії. Деякі люди називають зміщену версію "експоненціальним розподілом", але це порівняно рідко; лише дещо частіше, ніж називати зрушений лонормальний розподіл "лонормальним розподілом".
Glen_b -Встановіть Моніку

1
@ user603 О, вибачте, просте неправильне спілкування - у такому випадку так, я не думаю, що у нас немає суттєвих розбіжностей - там, де є можливість лівих великих людей зліва, підхід, який я згадав, взагалі не має сенсу . Я просто не намагався розібратися з будь-яким потенціалом у цій ситуації (але, на мій захист, на мене це не виглядало так, як ОП розглядала це як можливість - я сумніваюся, що взяти до уваги, якби це було).
Glen_b -Встановіть Моніку

14

Я відповім на ваші запитання у зворотному порядку, у якому ви їх задали, щоб експозиція переходила від конкретного до загального.

По-перше, давайте розглянемо ситуацію, коли ви можете припустити, що, за винятком меншості осіб, які пережили люди, більша частина ваших даних може бути добре описана відомим розповсюдженням (у вашому випадку експоненціалом).

х

pХ(х)=σ-1досвід(-(х-θ)σ),х>0;σ>0

хθ=0

Звичайний оцінювач параметрів MLE є [0, p 506]:

θ^=хвiхi

і

σ^=проспектiхi-хвiхi

Ось приклад у R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

MLE дорівнює .σ2.08

На жаль, оцінки MLE дуже чутливі до присутності людей, що вижили. Наприклад, якщо я пошкоджую зразок, замінюючи 20% на :хi-хi

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

MLE з на основі пошкодженого зразка тепер (!). Як другий приклад, якщо я пошкоджую вибірку, замінюючи 20% значень на (скажімо, якщо випадково розміщено десяткове місце):σ11.12хi100хi

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

MLE з на основі цього другого зіпсованого зразка тепер (!).σ54

Альтернативою сировинному MLE є: (a) знайти людей, що втратили життя, використовуючи чітке правило ідентифікації зовнішньої форми ; (b) виділити їх як помилкові дані та (c) обчислити MLE на неправдивій частині вибірки.

Найвідомішим із цих надійних правил ідентифікації зовнішніх правил є мед / божевільне правило, запропоноване Гампелем [3], який приписував це Гаусу (я проілюстрував це правило тут ). У правилі Med / mad поріг відхилення базується на припущенні, що справжні спостереження у вашій вибірці добре наближені нормальним розподілом.

Звичайно, якщо у вас є додаткова інформація (наприклад, відомо, що розподіл справжніх спостережень добре наближений розподілом пуассона, як у цьому прикладі ), це ніщо не завадить перетворити ваші дані та використовувати базове правило відхилення зовнішнього рівня мед / божевільний), але це здається мені трохи незручним для перетворення даних, щоб зберегти те, що врешті-решт є спеціальним правилом.

Мені здається набагато логічнішим зберегти дані, але адаптувати правила відхилення. Тоді ви все одно будете використовувати 3-х ступінчасту процедуру, яку я описав у першому посиланні вище, але з порогом відхилення, адаптованим до розподілу, ви підозрюєте, що хороша частина даних є. Нижче я наводжу правило відхилення в ситуаціях, коли справжні спостереження добре підходять за допомогою експоненціального розподілу. У цьому випадку ви можете побудувати хороші пороги відхилення, використовуючи таке правило:

1) оцінка використовуючи [1]:θ

θ^'=медiхi-3.476Qn(х)ln2

Qn є надійною оцінкою розкиду, яка не спрямована на симетричні дані. Він широко застосовується, наприклад , в R пакеті robustbase . Для експоненціальних розподілених даних Qn помножується на коефіцієнт узгодженості , детальніше див. [1].3.476

2) відкинути як хибні всі спостереження поза [2, с 188]

[θ^',9(1+2/н)медiхi+θ^']

(Коефіцієнт 9 у правилі вище отримується як 7.1 у відповіді Glen_b вище, але з використанням більш високого відрізку. Коефіцієнт (1 + 2 / n) - малий поправочний коефіцієнт вибірки, який був отриманий за допомогою моделювання в [2]. Для досить великих розмірів вибірки він по суті дорівнює 1).

3) використовувати MLE на неправдивих даних для оцінки :σ

σ^'=проспектiНхi-хвiНхi

де .Н={i:θ^'хi9(1+2/н)медiхi+θ^'}

використовуючи це правило на попередніх прикладах, ви отримаєте:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

надійна оцінка зараз (дуже близька до значення MLE, коли дані чисті). На другому прикладі:σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

Орієнтовна оцінка зараз (дуже близька до значення, яке ми отримали б без залишків).σ2.2

На третьому прикладі:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

Орієнтовна оцінка зараз (дуже близька до значення, яке ми отримали б без залишків).σ2.2

Побічна перевага цього підходу полягає в тому, що він дає підмножину індексів підозрілих спостережень, які слід відміняти від решти даних, можливо, їх слід вивчити як об'єкт, що цікавить їх власне право (члени ).{i:iН}

Тепер, для загального випадку, коли у вас недостатньо хороший розподіл кандидатів, який би відповідав основній частині ваших спостережень, крім того, що не знаєте, що симетричний розподіл не буде робити, ви можете скористатись відрегульованою коробкою [4]. Це узагальнення boxplot, яке враховує (непараметричний і не відрізняється надійністю) міру косості ваших даних (так що, коли основна частина даних симетрична, згортається до звичайної boxplot). Ви також можете перевірити цю відповідь для ілюстрації.

  • [0] Джонсон Н.Л., Коц С., Балакришнан Н. (1994). Постійні універсальні дистрибуції, том 1, 2-е видання
  • [1] Rousseeuw PJ і Croux C. (1993). Альтернативи середньої абсолютної девіації. Журнал Американської статистичної асоціації, Vol. 88, № 424, стор 1273--1283.
  • [2] Дж. К. Патель, CH Кападія та Д. Б. Оуен, Декер (1976). Довідник статистичних розподілів.
  • [3] Гампель (1974). Крива впливу та її роль у надійній оцінці. Журнал Американської статистичної асоціації Vol. 69, № 346 (черв., 1974), стор 383-393.
  • [4] Вандервієрен, Е., Хуберт, М. (2004) "Налагоджена коробка для косого розподілу". Обчислювальна статистика та аналіз даних Том 52, Випуск 12, 15 серпня 2008 р., Сторінки 5186–5201.

1

По-перше, я б поставив під сумнів визначення, класичне чи інше. "Аутлер" - це дивовижний момент. Використання будь-якого конкретного правила (навіть для симетричного розподілу) - недосконала ідея, особливо в наш час, коли існує так багато величезних наборів даних. У наборі даних (скажімо, один мільйон спостережень) (в деяких полях не все таке велике), буде багато багатьох випадків, що перевищують обмеження 1,5 IQR, яке ви цитуєте, навіть якщо розподіл є абсолютно нормальним.

По-друге, я б запропонував шукати вихідців за оригінальними даними. Це майже завжди буде більш інтуїтивно зрозумілим. Наприклад, із даними про доходи досить часто вести журнали. Але навіть тут я б шукав випускників оригінальної шкали (долари чи євро чи що завгодно), тому що ми маємо кращі відчуття щодо таких цифр. (Якщо ви робите журнали, я б запропонував базу журналу 10, принаймні, для виявлення зовнішньої, оскільки це хоча б трохи інтуїтивно).

По-третє, шукаючи аутлієрів, остерігайтеся маскування.

Нарешті, я зараз досліджую алгоритм «пошуку вперед», запропонований Аткінсоном та Ріані для різних видів даних та проблем. Це виглядає дуже перспективно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.