Як підходити до проблеми класифікації, коли один із класів визначається "не будь-яким з інших"


9

Припустимо, мене цікавлять три класи c1, c2, c3. Але мій набір даних насправді містить ще кілька реальних класів(cj)j=4n.

Очевидною відповіддю є визначення нового класу c^4 що стосується всіх класів cj, j>3 але я підозрюю, що це не гарна ідея, оскільки зразки в c^4 будуть рідкісними і не дуже схожими один на одного.

Для наочності того, що я намагаюся сказати, припустимо, у мене є наступні два змінних простору та класи c1, c2, c3, c^4=j=4ncjзображені відповідно червоним, тиловим, зеленим та чорним кольорами. Ось так я підозрюю, як виглядали б мої дані.

введіть тут опис зображення

Чи є стандартний спосіб підійти до цієї проблеми? Що було б найефективнішим класифікатором і чому?


Розгляньте можливість використання одного проти відпочинку en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest
DaL

1
Можливо, ви захочете вивчити позитивні без маркування моделі . Схоже на подібну проблему, за винятком того, що це багатокласова, а не двійкова, як більшість проблем із ПУ.
Рікардо Крус

Відповіді:


4

Я використовував би двоступеневий підхід, використовуючи ідею c4^ клас, про який ви згадали.

На першому етапі використовуйте двійковий класифікатор (підготовлений на всьому наборі даних), щоб визначити, чи належить вибірка до класу c4^(тобто в будь-якому нецікавому класі). Для цього слід також ознайомитись із методами виявлення зовнішньої структури, якщо зразки, що належать до "цікавих" класів, значно відрізняються від решти.

Якщо результат негативний, перейдіть до наступного кроку, новий класифікатор навчається лише на вибірках, що належать до класів c1,c2,c3 і використовуйте цей прогноз як свій остаточний.

Я думаю, що навіть використання простого підходу кластеризації в якості першого кроку (наприклад, 4-кластеринг k-означає використання в якості вихідних центроїдів значення середніх центроїдівcentj=xiD:yi=jxixiD:yi=j1 для кожного c1,c2,c3,c4^), все одно буде корисно.


Пропозиція Bogas чудова, якщо у вас немає перекриття класу. В іншому випадку перейдіть з моделлю з декількома марками.
Рікардо Крус

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.