тл; д-р
- Який рекомендований спосіб поводження з
discrete
даними при виявленні аномалії? - Який рекомендований спосіб поводження з
categorical
даними при виявленні аномалії? - Ця відповідь пропонує використовувати дискретні дані для простого фільтрування результатів.
- Можливо, замініть значення категорії на шанс спостереження?
Вступ
Це моя перша публікація тут, тому, будь ласка, якщо щось не здається технічно правильним, ні у форматуванні, ні у використанні правильних визначень, мені цікаво знати, що слід було використовувати замість цього.
Наперед.
Я нещодавно брав участь у класі машинного навчання Ендрю Нг
Для виявлення аномалії нас вчили визначати, які параметри розподілу Нормальний / Гаусса для даної функції / змінної, в наборі даних, а потім визначати ймовірність вибраного набору значення / приклад спостереження вибраного набору тренувань з урахуванням конкретного Гауссова розподіл, а потім взяття добутку ймовірностей ознак.
Метод
Виберіть функції / змінні, які, на нашу думку, пояснюють відповідну діяльність: { x 1 , x 2 , … , x i }
Встановіть параметри Гаусса для кожної функції: σ2=1
Для кожного прикладу навчання , обчислити: p ( x ) = n ∏ j = 1 p ( x j ; μ j , σ 2 j )
Потім позначимо як аномалію ( ), задавши: y = { 1
Це дає нам метод, за допомогою якого можна визначити, чи потрібен приклад для подальшого огляду.
Мої питання
Це здається нормальним для безперервних змінних / функцій, але дискретні дані не розглядаються.
Що щодо фіктивних змінних, наприклад, функції гендерного прапора, можливо, названої, [IsMale]
яка може мати значення ? Для того, щоб врахувати фіктивну функцію, чи використовували б біноміальне розподіл замість обчислення ?
Як щодо категоричних даних, таких як колір автомобіля? Хоча ми могли зіставити кольори на числові значення, наприклад, , розподіл такої категоричної ознаки може бути близьким до рівномірного (тобто однаково вірогідний шанс будь-якого з кольорів), і далі, як будь-який чисельне відображення, яке відбувається (наприклад, має значення тощо), не є порядковим, чи має сенс намагатися перетворити будь-який ненормований розподіл частот для кольорів, які зазвичай розподіляються (чи не має значення навіть те, що воно не є порядковим? ?)? Наприклад, мені не було б сенсу робити перетворення оскільки дані не є ні безперервними, ні порядковими. Тож, можливо, найкраще було б знайти дискретний розподіл що відповідає функції, на відміну від "катування" даних, що відповідають гауссові?
Питання: (оновлено: 24.11.2015)
Чи можна бінарні змінні моделювати за допомогою біноміального розподілу ймовірностей та стати ще одним фактором у розрахунку ?Чи слід моделювати категоричні змінні за допомогою дискретного розподілу ймовірностей замість Гаусса та стати ще одним фактором у розрахунку ?Чи існує інший метод, який враховує те, про що я тут прошу, про що я можу подальше дослідження / дізнатися?- Який рекомендований спосіб поводження з
discrete
даними при виявленні аномалії? - Який рекомендований спосіб поводження з
categorical
даними при виявленні аномалії?
Редагувати: 2017-05-03
- Ця відповідь пропонує використовувати дискретні дані для простого фільтрування результатів.
- Можливо, замініть значення категорії на шанс спостереження?