Яка різниця між Outlier та Anomaly в контексті машинного навчання. Я розумію, що вони обоє посилаються на одне і те ж.
Яка різниця між Outlier та Anomaly в контексті машинного навчання. Я розумію, що вони обоє посилаються на одне і те ж.
Відповіді:
Два терміни є синонімами відповідно до:
Аггарвал, Чару С. Аналіз зовнішньої роботи. Спрінгер Нью-Йорк, 2017, дої: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Цитата зі сторінки 1:
У видобутку даних та літературі зі статистичними даними люди, що переживають люди, також називаються порушеннями, розбіжностями, девіантами або аномаліями .
Жирний текст не є частиною оригінального тексту.
Тут можна безкоштовно завантажити pdf-книгу, доступну від автора .
Відповідь язика в щоку:
Зовнішній вигляд: значення, яке ви передбачувано знайдете у своїх даних, яке вказує на те, що модель не працює належним чином
Аномалія: значення, яке проти всіх шансів, які ви знайдете у своїх даних, що вказує, що ваша модель працює належним чином
Більш серйозна, менш виразна відповідь:
Концепція випускників починається з питання побудови моделі, яка робить припущення щодо даних. Найчастіше люди, що переживають люди, є показниками того, що модель не описує дані належним чином, і тому ми повинні ставити під сумнів результати нашої моделі чи якість наших даних.
Поняття аномалій починається поза теоретичним світом і всередині прикладного світу: ми хочемо шукати незвичну поведінку в наших даних, іноді мотивовану тим, що нам цікаво знайти поведінку, яку хтось намагається приховати (як вірус у електронна пошта). Проблема полягає в тому, що оскільки люди намагаються приховати те, що роблять, ми насправді не знаємо, що шукати. Тому ми беремо набір «хороших» даних і вирішуємо, що все, що ми знаходимо в нашому новому наборі даних, який не виглядає «добре», є аномалією і варто наш час перевірити більш детально. Часто шукати аномалії означає шукати інших людей у новому наборі даних. Але зауважте, що ці значення можуть бути дуже поширеними у вашому новому наборі даних, незважаючи на те, що вони рідкісні у вашому старому наборі даних!
Підводячи підсумок, ці два поняття дуже схожі за статистикою, що стоїть за ними (тобто незвичні значення, надані вашій пристосованій моделі), але підходять до ідеї з різних сторін. Крім того, коли ми говоримо про людей, що переживають люди, ми зазвичай маємо на увазі незвичну точку даних у даних, що використовуються для нашої моделі , де як аномалія зазвичай розуміють як незвичайну точку даних у наборі даних поза даними, які використовуються для нашої моделі .
Примітка: ця відповідь заснована на тому, як я бачив два терміни, які часто використовуються, а не формальні визначення. Досвід користувачів може відрізнятися.
Аномалія - це результат, який неможливо пояснити з огляду на базовий розподіл (неможливість, якщо наші припущення є правильними). Аутлер є малоймовірною подією з огляду на розподіл бази (неймовірність).
Терміни в основному використовуються взаємозамінним способом. "Зовнішній вигляд" відноситься до чогось, що лежить поза нормою - так це "аномально". Але у мене є враження, що "зовнішній" зазвичай використовується для дуже рідкісних спостережень. За статистикою, за звичайного розподілу, ви вважаєте, що три сигми є пережилими. Тобто 99,7% ваших об'єктів, як очікується, будуть "нормальними". "Аномалія" використовується набагато ліберальніше. Якщо у вас раптом на вашому веб-сайті мільйони відвідувачів, це не рідкісні відвідувачі. Однак раптовий приріст відвідувачів все ще "аномальний", тоді як кожен окремий відвідувач не є "стороннім".
Можливо, саме в цій статті я бачив, як ці розбіжності обговорювались, але зараз, на жаль, не можу отримати доступ до неї.
Статистичний аналіз та обмін даними, Том 5, Випуск 5, жовтень 2012, Сторінки 363–387 Опитування про непідконтрольне виявлення зовнішньої кількості у великомірних числових даних
Просто, щоб далі каламутити води, в кліматологічній аномалії просто випливає різниця між значенням і середнім значенням, або відхилення:
Термін аномалія температури означає відхилення від еталонного значення або довгострокового середнього. Позитивна аномалія вказує на те, що спостережувана температура була теплішою за контрольну величину, тоді як негативна аномалія вказує на те, що спостережувана температура була прохолоднішою за порівняльну.
Це цілком може розглядатися як поза машинного навчання, але люди, зацікавлені у цьому питанні, можуть бути зацікавлені в цьому.
Аутлер - це точка даних, що ускладнює підгонку до моделі. Ви стикаєтеся з недоброзичливцями, часто не бажаючи, коли намагаєтесь встановити модель на свій набір даних. Видалення інших людей дозволяє створити кращі (тобто більш узагальнені) моделі. Точка буде зовнішньою для моделі . Ви ігноруєте це з огляду на той факт, що всі ваші інші точки , , більше відповідають .y = x ( 1 , 1 ) ( 5 , 5 ) ( 3 , 3.1 ) y = x
Аномалія може бути однією точкою даних, а також загальною тенденцією чи поведінкою, що спостерігається в даних після того, як модель вже побудована або розуміння процесу формування даних. Ви стикаєтесь з аномаліями через те, що система починає поводитись інакше, або ви шукаєте такі точки даних, тому що вам хочеться повідомити, коли відбувається подія, під час якої ваша модель не є дійсною. Ви можете піклуватися про спостереження за будь-якою аномальною поведінкою в амплітудах океанських хвиль не тому, що ви хочете викинути ці точки даних і побудувати кращу модель, а тому, що ви хочете знати, коли може статися цунамі.