Різниця між Outlier та Inlier


10

Я натрапив на термін inlier в мірі LOF (Local Outlier Factor), я знайомий з терміном "outliers" (в основному, laers - екземпляри, які не поводяться як решта екземплярів).

Що означає "Inliers" у контексті виявлення аномалії? і як це пов’язано з (відмінними від) пережилими?


Відповіді:


9

Це сфера, де є дещо непослідовність термінології, що має сумний ефект заплутати деякі статистичні дискусії. Поняття " ін'єр"Зазвичай використовується для позначення значення даних, яке є помилковим (тобто, з урахуванням помилки вимірювання), але, тим не менш, знаходиться у" внутрішній частині "розподілу правильно виміряних значень. За цим визначенням inlier має два аспекти: (1 ) воно знаходиться у внутрішній частині відповідного розподілу значень; і (2) це помилкове значення. Навпаки, відповідне поняття "зовнішній вигляд" зазвичай використовується для позначення будь-якого значення даних, що знаходиться далеко в хвости розповсюдження, але без будь-якого визначеного аспекту, припускаючи, що воно є помилковим. Ця термінологія викликає невдалу непослідовність, де "ін'єр" є помилковою точкою даних (за визначенням), а "інше" не обов'язково є помилковою точкою даних. Отже, згідно з цією термінологією об'єднання "інлієрів" та "чужих людей"не відповідає ні всім даним, ні навіть усім помилковим даним.

Справа з людиною, що стоїть на очах: я обговорював справу з непрацездатними людьми в інших питаннях тут і тут , але для зручності я повторю деякі з цих зауважень тут. Аутлієри - це точки, віддалені від основної маси інших точок в розподілі, а діагностика "чужих" проводиться шляхом порівняння точки даних з деякою припущеною формою розподілу. Хоча іноді можуть бути спричинені помилки вимірювання, але діагностика виснажувачів також може виникати, коли дані слідкують за розподілом з високим куртозом (тобто жировими хвостами), але аналітик порівнює дані даних із передбачуваною формою розподілу з низьким куртозом (наприклад, нормальний розподіл).

Позначення "залишків" у тестах, що випускаються, означає просто, що модельний розподіл, який ви використовуєте, не має достатньо жирних хвостів, щоб точно відображати спостережувані дані. Це може бути тому, що частина даних містить похибки вимірювання, або це може бути просто з розподілу жировими хвостами. Якщо немає певних причин вважати, що відхилення від передбачуваної форми моделі є свідченням помилки вимірювання (що вимагало б теоретичної основи припущення про розподіл), наявність випускників, як правило, означає, що вам слід змінити модель, щоб використовувати розподіл з жирніше хвости. По суті, важко відрізнити похибку вимірювання від високого куртозу, що є частиною основного розподілу.

Робота з інлієрами (що, як правило, передбачає не з ними справу): Якщо у вас немає джерела зовнішньої інформації, що вказує на помилку вимірювання, ідентифікувати "інлієри" по суті неможливо. За визначенням, це точки даних, які знаходяться у "внутрішній частині" розподілу, де відбувається більшість інших даних. Отже, це не виявляється тестами, які шукають дані, які є "аберацією" з інших точок даних. (У деяких випадках ви можете виявити "інлієри", які, здається, знаходяться у внутрішній частині розповсюдження, але насправді є "переживаючими людьми", якщо сприймати їх щодо більш складного подання розподілу.

У деяких рідкісних випадках у вас може бути зовнішнє джерело інформації, яке ідентифікує підмножину ваших даних як помилку вимірювання (наприклад, якщо ви проводите велике опитування і дізнаєтесь, що хтось із ваших геодезистів просто збирав свої дані ). У цьому випадку будь-які точки даних у цій підмножині, які знаходяться у внутрішній частині розповсюдження, є "інлайерами" і, як відомо, за допомогою зовнішньої інформації піддаються помилкам вимірювання. У цьому випадку ви, як правило, видалите всі дані, які, як відомо, є помилковими, навіть якщо деякі з них є "інлієрами", які знаходяться у внутрішній частині розповсюдження, де ви б очікували, що це буде. Суть у тому, що точка даних може бути помилковою, навіть якщо її немає в хвостах розподілу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.