Різниця між Аномалією та Зовнішньою


13

Яка різниця між Outlier та Anomaly в контексті машинного навчання. Я розумію, що вони обоє посилаються на одне і те ж.


3
З цікавості, де в літературі таке розрізнення? У мене склалося враження, що "люди, що вижили", не мають формальної дефініції, за винятком високих важелів та високого впливу спостережень. Вплив і важелі роблять мають математичні визначення, але з огляду на те «високий» є довільним. Здається, що навкруги обмінюються довільні слова.
АдамО

Люди, які вживають слово "inlier", неявно роблять певне розмежування між "anomaly" і "outlier", тому що in inlier є різновидом аномалії. Оскільки ні "зовнішня", ні "аномалія" не мають певних, загальновідомих технічних визначень, слід очікувати, що це запитання має кілька відповідей, що відрізняються (принаймні незначно) один від одного.
whuber

Відповіді:


9

Два терміни є синонімами відповідно до:

Аггарвал, Чару С. Аналіз зовнішньої роботи. Спрінгер Нью-Йорк, 2017, дої: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Цитата зі сторінки 1:

У видобутку даних та літературі зі статистичними даними люди, що переживають люди, також називаються порушеннями, розбіжностями, девіантами або аномаліями .

Жирний текст не є частиною оригінального тексту.

Тут можна безкоштовно завантажити pdf-книгу, доступну від автора .


Той факт, що "чужих людей" називають "аномаліями", не означає, що вони є синонімами. «Собак» іноді називають «тваринами». Я намагався вирішити цю проблему більш детально у цій відповіді (я не зміг її опублікувати тут, оскільки питання захищено).
Марко13,

9

Відповідь язика в щоку:

Зовнішній вигляд: значення, яке ви передбачувано знайдете у своїх даних, яке вказує на те, що модель не працює належним чином

Аномалія: значення, яке проти всіх шансів, які ви знайдете у своїх даних, що вказує, що ваша модель працює належним чином

Більш серйозна, менш виразна відповідь:

Концепція випускників починається з питання побудови моделі, яка робить припущення щодо даних. Найчастіше люди, що переживають люди, є показниками того, що модель не описує дані належним чином, і тому ми повинні ставити під сумнів результати нашої моделі чи якість наших даних.

Поняття аномалій починається поза теоретичним світом і всередині прикладного світу: ми хочемо шукати незвичну поведінку в наших даних, іноді мотивовану тим, що нам цікаво знайти поведінку, яку хтось намагається приховати (як вірус у електронна пошта). Проблема полягає в тому, що оскільки люди намагаються приховати те, що роблять, ми насправді не знаємо, що шукати. Тому ми беремо набір «хороших» даних і вирішуємо, що все, що ми знаходимо в нашому новому наборі даних, який не виглядає «добре», є аномалією і варто наш час перевірити більш детально. Часто шукати аномалії означає шукати інших людей у ​​новому наборі даних. Але зауважте, що ці значення можуть бути дуже поширеними у вашому новому наборі даних, незважаючи на те, що вони рідкісні у вашому старому наборі даних!

Підводячи підсумок, ці два поняття дуже схожі за статистикою, що стоїть за ними (тобто незвичні значення, надані вашій пристосованій моделі), але підходять до ідеї з різних сторін. Крім того, коли ми говоримо про людей, що переживають люди, ми зазвичай маємо на увазі незвичну точку даних у даних, що використовуються для нашої моделі , де як аномалія зазвичай розуміють як незвичайну точку даних у наборі даних поза даними, які використовуються для нашої моделі .

Примітка: ця відповідь заснована на тому, як я бачив два терміни, які часто використовуються, а не формальні визначення. Досвід користувачів може відрізнятися.


6

Аномалія - ​​це результат, який неможливо пояснити з огляду на базовий розподіл (неможливість, якщо наші припущення є правильними). Аутлер є малоймовірною подією з огляду на розподіл бази (неймовірність).


7
Цитування джерел для визначення та прикладу в значній мірі покращить відповідь.
Тім

4
Наскільки я знаю, це синоніми. Так @H. Ікбал справді повинен цитувати джерело, і всі читачі повинні оцінити авторитетність джерела
сайд

2
Здається, неможливість означає, що P (X = ANOMALY) = 0 (тобто точно 0). Моє розуміння виявлення аномалії полягає в тому, що дослідника можуть зацікавити події, які можуть мати позитивну ймовірність.
Кліф АВ

4

Терміни в основному використовуються взаємозамінним способом. "Зовнішній вигляд" відноситься до чогось, що лежить поза нормою - так це "аномально". Але у мене є враження, що "зовнішній" зазвичай використовується для дуже рідкісних спостережень. За статистикою, за звичайного розподілу, ви вважаєте, що три сигми є пережилими. Тобто 99,7% ваших об'єктів, як очікується, будуть "нормальними". "Аномалія" використовується набагато ліберальніше. Якщо у вас раптом на вашому веб-сайті мільйони відвідувачів, це не рідкісні відвідувачі. Однак раптовий приріст відвідувачів все ще "аномальний", тоді як кожен окремий відвідувач не є "стороннім".

Можливо, саме в цій статті я бачив, як ці розбіжності обговорювались, але зараз, на жаль, не можу отримати доступ до неї.

Статистичний аналіз та обмін даними, Том 5, Випуск 5, жовтень 2012, Сторінки 363–387 Опитування про непідконтрольне виявлення зовнішньої кількості у великомірних числових даних


1
Я думаю, ти тонко натякнув на різницю між людьми та аномаліями; outliers використовуються для опису даних, які не відповідають загальній тенденції, аномалії описують незвичний трафік на сервері. 50% jk.
Кліф АВ

2

Просто, щоб далі каламутити води, в кліматологічній аномалії просто випливає різниця між значенням і середнім значенням, або відхилення:

Термін аномалія температури означає відхилення від еталонного значення або довгострокового середнього. Позитивна аномалія вказує на те, що спостережувана температура була теплішою за контрольну величину, тоді як негативна аномалія вказує на те, що спостережувана температура була прохолоднішою за порівняльну.

див

Це цілком може розглядатися як поза машинного навчання, але люди, зацікавлені у цьому питанні, можуть бути зацікавлені в цьому.


1

Аутлер - це точка даних, що ускладнює підгонку до моделі. Ви стикаєтеся з недоброзичливцями, часто не бажаючи, коли намагаєтесь встановити модель на свій набір даних. Видалення інших людей дозволяє створити кращі (тобто більш узагальнені) моделі. Точка буде зовнішньою для моделі . Ви ігноруєте це з огляду на той факт, що всі ваші інші точки , , більше відповідають .y = x ( 1 , 1 ) ( 5 , 5 ) ( 3 , 3.1 ) y = x(1,5)y=x(1,1)(5,5)(3,3.1)y=x

Аномалія може бути однією точкою даних, а також загальною тенденцією чи поведінкою, що спостерігається в даних після того, як модель вже побудована або розуміння процесу формування даних. Ви стикаєтесь з аномаліями через те, що система починає поводитись інакше, або ви шукаєте такі точки даних, тому що вам хочеться повідомити, коли відбувається подія, під час якої ваша модель не є дійсною. Ви можете піклуватися про спостереження за будь-якою аномальною поведінкою в амплітудах океанських хвиль не тому, що ви хочете викинути ці точки даних і побудувати кращу модель, а тому, що ви хочете знати, коли може статися цунамі.


2
Я не згоден з більшою частиною цього. По-перше, перше речення може бути вашим визначенням зовнішності, якщо вам подобається, але важко примиритись з багатьма іншими визначеннями чи звичаями. Якщо дані (1, 1), (2, 2), (3, 3), (набагато більші, набагато більші), то набагато більший момент часто описується як зовнішній вигляд, але немає проблеми з підключенням моделі. Ви можете (і повинні) задатися питанням, чому дані надходять саме так, але встановити модель легко. Більш загальний принцип полягає в тому, що зовнішній вигляд може бути відокремлений від основного масиву даних, але все-таки узгоджується з правдоподібною моделлю.
Нік Кокс

По-друге, якщо випливає, що упустити людей, що втратили життя, - це саме те, що вам слід зробити, то (а) часто проблематично навіть говорити, хто такі люди є (б) існує багато інших рішень. Нитка stats.stackexchange.com/questions/78063/… знаходиться в більш широкому розмірі, ніж її назва, щоб згадати декілька.
Нік Кокс

1
Якщо ви перейдете за моїм посиланням, ви побачите, що я вже надто довго розміщував публікації про випускники. Я не маю сенсу перечитувати вашу відповідь про те, що ви думаєте заднім числом, як вам здається, ви говорите про видалення інших людей під час пристосування. Перечитавши, зазначу також, що перше речення вашого другого абзацу включає думку про те, що аномалія може бути «загальною тенденцією чи поведінкою», що навряд чи буде те, що ви маєте на увазі - або якщо це так, я не хочу » я розумію це.
Нік Кокс

1

Гарне питання. Однак пошук Google за "різницею між сторонніми та аномалійними сайтами: .edu" показує, що немає теоретичної різниці між цими двома термінами. Вони використовуються взаємозамінно в літературі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.