Суворе визначення чужого?


44

Люди часто говорять про те, що мають справу зі старшими в статистиці. Що мене турбує з цього приводу, це те, що, наскільки я можу сказати, визначення спокійного обличчя є абсолютно суб'єктивним. Наприклад, якщо справжній розподіл якоїсь випадкової змінної є дуже важким або бімодальним, будь-яка стандартна візуалізація або зведена статистика для виявлення залишків неправильно видалить частину розподілу, з якого ви хочете взяти вибірку. Що таке чітке визначення зовнішньої групи, якщо така існує, і як з ними можна боротися, не вводячи в аналіз необгрунтовану кількість суб'єктивності?


Якщо ви хочете дізнатися про конкретний розподіл, то запитайте про свій приклад. Це буде різним для різних ситуацій.
Джон

8
Ну, я б очікував, що у вас з'явиться, rigorous definition of an outlierколи ви зможете визначити unreasonable amounts of subjectivityоб'єктивний спосіб ;-), спасибі
їжте

1
Але визначення може змінюватися залежно від розподілу та ситуації, що лежить в основі. Я міг би сказати ± 1,5 IQR, або 3 SD, або щось таке. Але я міг би скористатися зовсім іншим підходом, якщо матиму два види заходів, скажімо, час реакції та точність. Я можу сказати, що RT залежить від рівня точності. Всі вони можуть бути хорошими та математично суворими та мати різні застосування та значення.
Джон

2
Є МНОГО суворі визначення зовнішності. Але вибір серед них може здатися довільним. Але я вважаю, що це частина помилкового уявлення про те, що статистика є предметом, в якому кожна проблема має одну правильну відповідь.
Пітер Флом - Відновити Моніку

Відповіді:


23

Поки ваші дані надходять із відомого розповсюдження з відомими властивостями, ви можете суворо визначити зовнішній вигляд як подію, яка занадто малоймовірна, щоб була створена спостережуваним процесом (якщо ви вважаєте, що "занадто малоймовірна" не є суворою, тоді тестування всіх гіпотез є).

Однак такий підхід є проблематичним на двох рівнях: він передбачає, що дані надходять із відомого розподілу з відомими властивостями, і це створює ризик того, що люди, що переживають люди, розглядаються як точки даних, які були завезені у ваші дані, встановлені деякими магічними феями.

За відсутності чарівних феєричних даних усі дані надходять з вашого експерименту, і тому насправді неможливо мати видатки, просто дивні результати. Вони можуть виникати через помилки запису (наприклад, будинок у спальні на 400 000 доларів за 4 долари), систематичні питання вимірювань (алгоритм аналізу зображень повідомляє про величезні площі, якщо об’єкт знаходиться занадто близько до межі), експериментальні проблеми (іноді кристали осаджуються з рішення, які дають дуже високий сигнал) або особливості вашої системи (клітина іноді може ділитися на три замість двох), але вони також можуть бути результатом механізму, який ніхто ніколи не вважав, тому що це рідко, і ви робите дослідження, що означає, що деякі речі, якими ви займаєтесь, просто ще не відомі.

В ідеалі ви витрачаєте час, щоб дослідити кожну зовнішню групу, і вилучаєте її з набору даних лише після того, як зрозумієте, чому вона не відповідає вашій моделі. Це трудомістко і суб'єктивно, оскільки причини сильно залежать від експерименту, але альтернатива є гіршою: якщо ви не розумієте, звідки взялися люди, що випадають, у вас є вибір між тим, як дозволити інтралієрам "зіпсувати" свої результати, або визначити якийсь "математично суворий" підхід, щоб приховати нерозуміння. Іншими словами, домагаючись «математичної суворості», ви вибираєте між тим, щоб не отримати суттєвого ефекту і не потрапити на небо.

EDIT

Якщо у вас є лише список номерів, не знаючи, звідки вони беруться, ви не можете сказати, чи є якась точка даних стороннім, оскільки ви завжди можете припустити розподіл, де всі дані є інлайєрами.


3
Однак, не всі люди, що випадають, створюються в результаті експерименту. Я працював з великим набором даних, який включав збір інформації про нерухомість в регіоні (ціна продажу, кількість спалень, квадратні метри тощо), і раз у раз виникають помилки введення даних, і я маю 400 000 спальних будинків коштують за 4 долари, або щось таке безглузде. Я б подумав, що частина мети визначення зовнішнього вигляду полягає в тому, щоб зрозуміти, чи можливо генерувати дані, чи це була лише помилка введення.
Крістофер Аден

2
@Christopher Aden: Я вважаю цю частину експериментального процесу. В основному, для того, щоб можна було видалити людей, які не переживають людину, ви повинні зрозуміти, як створювались дані, тобто не вилучати інших людей без поважних причин. Інакше ви просто стилізуєте свої дані. Я відредагував свою відповідь, щоб це відобразити трохи краще.
Йонас

Це цілком розумно, але припускає, що ви вже маєте пристойну кількість попередніх знань про те, що таке справжній розподіл. Я більше думав з точки зору сценаріїв, де ти цього не робиш, і це може бути дуже важким хвостом або бімодалом.
dimimcha

@dsimcha: Я не думаю, що ви зможете визначити людей, які не вийшли в цьому випадку (див. також мою редакцію).
Йонас

2
@dsimcha - ти завжди маєш попередні знання! як вам надали дані? Ви завжди завжди знаєте , що багато. дані магічно не відображаються. і ви завжди можете робити попередні припущення. На основі цих припущень "люди, що пережили", в основному дають вам зрозуміти, що щось у ваших припущеннях не так. Вивчаючи "чужий" (який завжди відносний), ви можете вдосконалити свою модель.
ймовірністьлогічний

13

Ви впевнені, що видалення інших людей може виглядати як суб'єктивна вправа, але це не означає, що це неправильно. Нав'язлива потреба завжди мати сувору математичну причину для кожного рішення щодо аналізу ваших даних, часто є лише тонкою завісою штучної суворості над тим, що все-таки виявляється суб'єктивною вправою. Це особливо актуально, якщо ви хочете застосувати одне і те ж математичне обгрунтування до кожної ситуації, з якою ви стикаєтесь. (Якщо для всіх існували чіткі математичні правила, тоді статистик вам не знадобиться.)

Наприклад, у вашій ситуації з розподілом довгих хвостів не існує гарантованого способу вирішити з чисел, чи є у вас один базовий розподіл інтересу з інвалідами або два базові розподіли інтересів, коли люди, що належать до одного, лише однієї з них. Або, не дай бог, лише власне розповсюдження даних.

Чим більше даних ви збираєте, тим більше потрапляєте в регіони низької ймовірності розподілу. Якщо ви зіберете 20 зразків, навряд чи ви отримаєте значення з z-балом 3,5. Якщо ви зіберете 10 000 зразків, швидше за все, ви отримаєте один, і це природна частина розповсюдження. З огляду на вищесказане, як ви вирішите лише тому, що щось є крайнім, щоб виключити це?

Вибір найкращих методів для аналізу часто є суб'єктивним. Будь це необґрунтовано суб'єктивним, залежить від пояснення рішення та від зовнішньої.


+1 Барнетт і Льюїс, які написали книгу про людину , що споживає , заявляють, що "набір даних у наборі даних [це] спостереження (або підмножина спостережень), яке, здається, не відповідає решті цього набору даних " [на с. . 7]. Вони продовжують: "Це питання суб'єктивного судження з боку спостерігача, вибирається чи ні якесь спостереження ... чи підбирається для ретельного контролю ... Що характеризує" сторонніх людей "- це його вплив на спостерігача .... "
whuber

"книга" тут трохи неоднозначна. Я б вважав Барнетта і Льюїса провідними монографіями, але це не єдина книга про людей, що втратили життя. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 останнім часом. Існує також старіша книга Д. М. Хокінса.
Нік Кокс

9

Я не думаю, що неможливо визначити зовнішнє середовище, не вважаючи модель основного процесу, що породжує дані. Без такої моделі у нас немає системи відліку, щоб вирішити, чи є дані аномальними чи "неправильними". Визначення того, хто мені здається корисним, полягає в тому, що «зовнішній вигляд» - це спостереження (або спостереження), яке не може бути узгоджене з моделлю, яка в іншому випадку працює добре.


2
Гм ... У своєму тексті EDA Джон Тукі спеціально визначив людей, що не користуються, не використовуючи жодних моделей.
whuber

7
Ви можете визначити людину, що не використовує модель, без моделі, але я визнав такі визначення корисними. До речі, за моделлю я не обов'язково маю на увазі статистичну модель, яка явно підходила до даних. Будь-яке визначення стовбура вимагає, щоб ви зробили певне припущення щодо того, які саме значення ви очікуєте побачити та які саме значення ви не очікуєте побачити. Я думаю, що краще, якщо ці припущення (тобто модель) будуть чіткі. Існує також той факт, що в EDA, ви вивчаєте дані, ваше визначення «outlier» може бути дуже іншим для EDA, ніж для встановлення остаточної моделі.
Дікран Марсупіал

6

Тут є багато відмінних відповідей. Однак хочу зазначити, що два питання плутають. Перший - «що таке чуже?», А конкретніше - дати «жорстке визначення» такого. Це просто:

Зовнішній вигляд - це точка даних, яка походить від іншого населення / розподілу / процесу генерації даних, ніж той, який ви мали намір вивчити / решта ваших даних.

Друге питання: "як я можу знати / виявити, що точка даних є стороннім?" На жаль, це дуже важко. Однак наведені тут відповіді (які насправді дуже хороші і які я не можу покращити) будуть дуже корисними для цього завдання.


1
99(0,1)2.52.5(4,1)21402
whuber

1
@whuber, так. Я кажу , що це особняком, хоча ви ніколи б не помітити (що, як я підозрюю, що ви маєте в виду практично експлуатаційний).
gung - Відновіть Моніку

1
Я ціную відмінність, яку ви робите. Я просто хотів вказати на різкий контраст між вашим визначенням та більшістю інших визначень чи описів людей, що перебувають у цій темі. Вам не здається, що це може призвести до задовільних практичних процедур: вам завжди доведеться погодитись, що величезна частина вашого набору даних може бути "поза межами", але не маючи жодного способу виявити або вирішити це.
whuber

@whuber, я від усієї думки згоден. Я вважаю це слабко аналогічним тестуванню гіпотез, де (наприклад) 2 групи можуть відрізнятися дуже невеликою, невизначеною кількістю, або можуть відрізнятись помірною кількістю, але зразки, у яких ви закінчились, були дуже схожі випадково; тим не менш, з теоретичної точки зору варто розуміти та зберігати відмінність.
gung - Відновіть Моніку

1
@whuber, ти маєш рацію. Деякі виокремлюють це, але багатьом не зрозуміло цих ідей. Моя позиція полягає в тому, що немає жодної осмисленої реальності "чужих", окрім забруднювачів . Тим не менш, люди також повинні / замість цього подумати про питання, як їх хвилює питання (якщо), якщо ваші результати визначаються лише ними (незалежно від того, є вони "справжніми" чи ні), і тому ваші результати дуже крихкі. Коротше кажучи, немає підстав для занепокоєння щодо пунктів, які стосуються вашого населення, і не однозначно визначають ваші результати; як тільки ви вирішили з / за 2 питання, "нічого не залишилося".
gung - Відновіть Моніку

6

Визначення 1: Як уже згадувалося, зовнішній вигляд у групі даних, що відображають той самий процес (скажімо, процес А), є спостереженням (або набором спостережень), яке навряд чи буде результатом процесу А.

Це визначення, безумовно, включає оцінку ймовірної функції процесу А (отже, модель) та встановлення того, що малоймовірно означає (тобто вирішення, де зупинитись ...). Це визначення лежить в корені відповіді, яку я дав тут . Він більше пов'язаний з ідеями перевірки гіпотез на значущість чи корисність придатності .

xGx

Це визначення передбачає "задану модель" та міру точності. Я думаю, що це визначення скоріше з практичної сторони і більше походить від інших людей. У «Походженні» виявлення зовнішньої програми було інструментом надійної статистики .

Очевидно, що ці визначення можна зробити дуже схожими, якщо ви розумієте, що обчислення ймовірності в першому визначенні передбачає моделювання та обчислення балу :)


2

Аутлер - це точка даних, яка мені незручна, враховуючи моє сучасне розуміння процесу, який генерує ці дані.

Я вважаю, що це визначення настільки ж суворе, як це можна зробити.


Протиставляйте це визначенню Джона Тукі (він вживає термін "зовні"): "Коли ми дивимося на деякі партії значень, ми бачимо, що певні величини, схоже, виходять далеко за межі інших. ... Зручно мати правило великий палець, який визначає певні значення як "зовні" ... "Пізніше він підсумовує це як" ... виявлення окремих значень, які можуть бути незвичними ". [EDA, глава 2]. Він підкреслює, що у всій книзі ми описуємо дані, а не робимо вигляд, що "розуміємо процес", і що завжди можливі кілька дійсних описів.
whuber

Аналогічно, "Вихідні люди - вибіркові значення, які викликають здивування стосовно більшості вибірки" (WN Venables і BD Ripley. 2002. Сучасна прикладна статистика для S. New York: Springer, с.119). Однак несподіванка має на увазі очікувача і залежить від якоїсь мовчазної чи явної моделі даних. Можливо, є ще одна модель, за якою аверлієр зовсім не дивує, скажімо, дані насправді є ненормальними або гамма, а не звичайними.
Нік Кокс

@ Nick Це відповідає Барнетту і Льюїсу, яких я цитую в коментарі до відповіді Джона .
whuber

@whuber: Ви кажете "Контрастуйте цьому", що, на мою думку, означає, що ви не згодні, але я не впевнений. Я б заперечував, що формування моделі - неявна і наївна, можливо - саме тому ми бачимо шаблони в даних, або людина на Місяці, або люди, що переживають люди. Модель може не мати фізико-хімічної / економічної основи, але ми висунули гіпотезу про модель. Інакше сюрпризу немає, немає "зовні".
Уейн

Тукі наполягає на тому, що описуючи дані, ми не обов'язково їх моделювати . Справедливо розширити своє визначення поняття "модель", щоб включити опис даних, але тоді термін стає майже занадто загальним, щоб бути корисним. З точки зору Тукі (як я це розумію, звичайно), не виникає занепокоєння з приводу втрати обличчя, а також немає питання про зручність чи ні. Таким чином, хоча я поважаю вашу мотивацію, я вважаю, що ваше ставлення (як це відображено в «збереженні обличчя» та «незручності») менш конструктивне, ніж інші підходи до цього питання.
whuber

0

Визначте зовнішнє середовище як елемент того мінімального набору елементів, який повинен бути вилучений з даних n розміром n, щоб забезпечити 100% відповідність тестам RUM, проведеним на рівні 95% довіри на всіх (2 ^ n -1) унікальних підмножинах дані. Дивіться текст Каріана і Дудевича про пристосування даних до pdfs за допомогою R (вересень 2010) для визначення тесту RUM.


-2

Асмілієри важливі лише у сфері частотизму. Якщо одна точка даних додає упередженість до вашої моделі, яка визначається базовим розподілом, визначеним вашою теорією, то це є вищою для цієї моделі. Суб'єктивність полягає в тому, що якщо у вашій теорії є інша модель, то ви можете мати різний набір балів, як випускники.


1
Чи стверджуєте ви, що в аналізі даних Байєса люди, які переживають люди, не важливі?
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.