Класифікатор лише для одного класу


10

У простій класифікації ми маємо два класи: клас-0 та клас-1. У деяких даних у мене є лише значення для класу-1, тому жодне для класу-0. Зараз я думаю про створення моделі для моделювання даних для 1 класу. Отже, коли з'являються нові дані, ця модель застосовується до нових даних і знаходить ймовірність, яка говорить про те, наскільки ймовірні, що нові дані відповідають цій моделі. Тоді, порівнюючи з порогом, я можу відфільтрувати невідповідні дані.

Мої запитання:

  • Це хороший спосіб працювати з такими проблемами?
  • Чи можна використовувати класифікатор RandomForest для цього випадку? Чи потрібно мені додавати штучні дані для класу-0, які, сподіваюся, класифікатор вважає шумом?
  • Будь-яка інша ідея може допомогти для цієї проблеми?

Відповіді:


9

Це можливо за допомогою деяких підходів і, безумовно, є правильним. Я не впевнений, чи можуть це зробити випадкові ліси.

Генерування штучних даних означає створення додаткових припущень, не робіть цього, якщо цього не потрібно.

Один з методів, який ви можете захопити, - це так званий однокласний SVM. Це робить саме те, що ви шукаєте: намагається створити модель, яка приймає навчальні бали і відкидає бали з інших розподілів.

Деякі посилання на однокласний SVM:

  1. Schölkopf, Bernhard та ін. "Оцінка підтримки розподілу високих розмірів." Нейрові обчислення 13.7 (2001): 1443-1471. У цьому документі представлений підхід.

  2. Податкові, Девід МДж та Роберт ПВ Дюін. Msgstr "Підтримка опису векторних даних." Машинне навчання 54.1 (2004): 45-66. Інший спосіб зробити те ж саме, напевно, більш інтуїтивний.

Обидва ці підходи виявились рівнозначними. Перший оцінює гіперплан, який відокремлює всі навчальні дані від початку в просторі можливостей з максимальною відстані. Друга оцінює гіперсферу з мінімальним радіусом у просторі можливостей, що містить навчальні екземпляри.

Однокласний SVM доступний у багатьох пакетах SVM, включаючи libsvm , scikit-learn (Python) та kernlab (R).


3
Кандидатська дисертація податкової служби "
Однокласна

Короткий і точний! (+1) "Обидва ці підходи показали рівнозначними". - Ви можете вказати на це посилання / цитування? Є чи це scholar.google.de / ...
Boern

6

Дозвольте додати ще кілька можливостей:

Загальна ідея полягає в тому, що встановлення порогу на відстань від класу дозволяє вирішити, належить вибірка до цього класу чи ні, і незалежно від того, існують інші класи чи ні.

  • Mahalanobis-відстань => QDA
  • SIMCA (м'яке незалежне моделювання аналогій класу) використовує відстані в оціночному просторі PCA.
    SIMCA є поширеною в хімічній літературі (хоча рідко створюється однокласним способом).
  • (СВМ вже розглядаються у відповіді @Marc Claesen)

Річард Г. Бретон: Хемометрія для розпізнавання візерунків (Wiley, 2009) має цілий розділ про однокласну класифікацію.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.