Виявлення аномалії за допомогою манекенів (та інших дискретних / категоричних особливостей)


18

тл; д-р

  • Який рекомендований спосіб поводження з discreteданими при виявленні аномалії?
  • Який рекомендований спосіб поводження з categoricalданими при виявленні аномалії?
  • Ця відповідь пропонує використовувати дискретні дані для простого фільтрування результатів.
  • Можливо, замініть значення категорії на шанс спостереження?

Вступ

Це моя перша публікація тут, тому, будь ласка, якщо щось не здається технічно правильним, ні у форматуванні, ні у використанні правильних визначень, мені цікаво знати, що слід було використовувати замість цього.

Наперед.

Я нещодавно брав участь у класі машинного навчання Ендрю Нг

Для виявлення аномалії нас вчили визначати, які параметри розподілу Нормальний / Гаусса для даної функції / змінної, xi в наборі даних, а потім визначати ймовірність вибраного набору значення / приклад спостереження вибраного набору тренувань з урахуванням конкретного Гауссова розподіл, а потім взяття добутку ймовірностей ознак.

Метод

Виберіть функції / змінні, які, на нашу думку, пояснюють відповідну діяльність: { x 1 , x 2 , , x i }xi

{x1,x2,,xi}

Встановіть параметри Гаусса для кожної функції: σ2=1

μj=1mi=1mxj(i)
σ2=1mi=1m(xj(i)μj)2

Для кожного прикладу навчання , обчислити: p ( x ) = n j = 1 p ( x j ; μ j , σ 2 j )x

p(x)=j=1n p(xj;μj,σj2)

Потім позначимо як аномалію ( ), задавши: y = { 1y=1

y={1p(x)<ϵ0p(x)ϵ

Це дає нам метод, за допомогою якого можна визначити, чи потрібен приклад для подальшого огляду.

Мої питання

Це здається нормальним для безперервних змінних / функцій, але дискретні дані не розглядаються.

Що щодо фіктивних змінних, наприклад, функції гендерного прапора, можливо, названої, [IsMale]яка може мати значення ? Для того, щоб врахувати фіктивну функцію, чи використовували б біноміальне розподіл замість обчислення ?0,1p(x)

Як щодо категоричних даних, таких як колір автомобіля? Хоча ми могли зіставити кольори на числові значення, наприклад, , розподіл такої категоричної ознаки може бути близьким до рівномірного (тобто однаково вірогідний шанс будь-якого з кольорів), і далі, як будь-який чисельне відображення, яке відбувається (наприклад, має значення тощо), не є порядковим, чи має сенс намагатися перетворити будь-який ненормований розподіл частот для кольорів, які зазвичай розподіляються (чи не має значення навіть те, що воно не є порядковим? ?)? Наприклад, мені не було б сенсу робити перетворення оскільки дані не є ні безперервними, ні порядковими. Тож, можливо, найкраще було б знайти дискретний розподілred1,blue2red1log() що відповідає функції, на відміну від "катування" даних, що відповідають гауссові?

Питання: (оновлено: 24.11.2015)

  • Чи можна бінарні змінні моделювати за допомогою біноміального розподілу ймовірностей та стати ще одним фактором у розрахунку ?p(х)
  • Чи слід моделювати категоричні змінні за допомогою дискретного розподілу ймовірностей замість Гаусса та стати ще одним фактором у розрахунку ?p(х)
  • Чи існує інший метод, який враховує те, про що я тут прошу, про що я можу подальше дослідження / дізнатися?
  • Який рекомендований спосіб поводження з discreteданими при виявленні аномалії?
  • Який рекомендований спосіб поводження з categoricalданими при виявленні аномалії?

Редагувати: 2017-05-03

  • Ця відповідь пропонує використовувати дискретні дані для простого фільтрування результатів.
  • Можливо, замініть значення категорії на шанс спостереження?

<відповідальність> Я хтось із достатньою кількістю статистичних даних, щоб бути небезпечним. </disclaimer> Тож давайте отримати небезпеку .... Моя інтуїція погоджується з вашою, що Гаусс не спосіб обробляти неперервні дані. Для безперервних даних одне значення в рядку числа має інший тип зв’язку з усіма іншими значеннями, ніж число у цілому рядку або двійкова змінна. Біноміальні розподіли описують бінарні змінні. Мультиноміальні розподіли описують багаточлени. Хіба це не всі експоненціальні члени родини?
EngrStudent


Ще одне, що може додати до будь-якої дискусії: Тема: категоричні люди?
Адріан Торрі

pp(x;μ,σ2)=1σ2πe(xμ)22σ2

@uvts_cvs так функція густини ймовірності гауссая - це те, що використовується.
Адріан Торрі

Відповіді:


4

В цілому, як для дискретних *, так і категоричних особливостей, цей метод не особливо піддається зовнішньому аналізу. Оскільки немає масштабів, пов'язаних з категоричними провісниками, ми працюємо з:

  • Частота категорії, що спостерігається у глобальних даних
  • Частота категорії, що спостерігається в підпросторах даних

Зауважте, що жодна з цих якостей не може бути проаналізована ізольовано, як цього вимагає метод Гаусса. Натомість нам потрібен метод, який контекстуалізує категоричні ознаки та враховує кореляційний характер даних.

Ось декілька прийомів категоричних та змішаних даних атрибутів, заснованих на аналізі Outlier by Aggarwal:

  • SS=Qkλk2QkTQkE=QkλkE
  • Якщо у вас суто категоричні особливості, підготуйте модель суміші до необмежених категоричних даних. Аномальні точки мають найменшу генераційну ймовірність.
  • Використовуйте однокоординатне кодування для категоричних предикторів та необов'язково прихованого аналізу змінних ** для порядкових змінних з не очевидними безперервними відображеннями
    • Стандартизуйте функції, які не є гарячими (функції "гарячого" вже неявно стандартизовані) та виконайте аналіз основних компонентів . Виконайте зменшення розмірності за допомогою основних основних компонентів (або м'якого підходу PCA, коли власні вектори зважуються власними значеннями) та застосуйте типовий безперервний метод зовнішнього аналізу (наприклад, модель суміші або ваш метод Гаусса)
    • Виконайте кутовий аналіз. Для кожного спостереження обчисліть схожість косинусів між усіма парами точок. Спостереження з найменшою дисперсією цих подібностей (відомі як "фактор випередження на основі кута") є, швидше за все, переживаючими. Може знадобитися остаточний аналіз емпіричного розподілу ABOF для визначення того, що є аномальним.
    • Якщо у вас є мітки, що випадають, встановіть модель прогнозування до інженерних даних (логістична регресія, SVM тощо).

* Дискретні функції, можливо, обробляються приблизно у вашому методі Гаусса. За правильних умов функція може бути добре наближена нормальним розподілом (наприклад, біноміальна випадкова величина з npq> 3). Якщо ні, поводьтеся з ними, як описано вище.

** Це схоже на вашу ідею "замінити значення категорії на відсотковий шанс спостереження"


K=1

@Akababa Ви можете, наприклад, обчислити MLE на мультиноміальних параметрах, використовуючи алгоритм EM. Припускаючи незалежність багаточленних РВ, цей підхід узагальнює довільні набори категоричних предикторів. Приклад тут
khol

0

Математика класу Ендрю Нг обробляє "дискретні" дані так, як це обробляє "недискретні" дані. Все, що нам потрібно зробити, це емпірично оцінити нормальні параметри розподілу, і це може бути ідеально зроблено для дискретних даних.

Якщо ви подумаєте над цим, машинне навчання завжди має справу з дискретними даними: кількість точок даних не є нескінченною, а кількість бітів, якими обробляються комп'ютери, не є нескінченною.

Якщо дискретні точки даних можна порівняти між собою, то немає принципової різниці для методів машинного навчання при роботі, скажімо, з довжиною: 1,15 фута 1,34 фута 3,4 фута

або скільки гілок на дереві: 1 2 3 5

Ви можете підсумовувати і середнє число з плаваючою точкою або цілими числами однаково.

Тепер до категоричних даних. Категоричні точки даних не можна порівняти {автомобіль проти мотоцикла проти човна). Як ми впораємося з цим?

Кількість категорій має бути принаймні двома, щоб мати сенс, інакше який сенс у постійній функції? У разі 2 категорій ми можемо представити функцію категорії як двійкову функцію {0, 1}. 0 і 1 можна використовувати для математики, тому дивіться вище.

Якщо кількість категорій (K) дорівнює [3 .. inf], ми відображаємо нашу єдину особливість до K бінарних взаємовиключних функцій. Наприклад, категорія "мотоцикл" стає комбінацією бінарних функцій {IsCar: 0, IsMotorcycle: 1, IsBoat: 0}, точка човна стає {IsCar: 0, IsMotorcycle: 0, IsBoat: 1} тощо.

Ми можемо оцінити емпіричні параметри розподілу за цими новими ознаками. У нас просто буде більше розмірів, ось і все.


1
Це пояснює фіктивне кодування, але це не відповідь на питання
Пітер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.