Як знайти ваги для міри дисиміліарності


9

Я хочу дізнатися (вивести) ваги атрибутів для міри невідповідності, яку я можу використовувати для кластеризації.

У мене є кілька прикладів пар об'єктів, які є "подібними" (повинні бути в одному кластері), а також деякі приклади пар об'єктів, які "не схожі" (не повинні бути в одному кластері). Кожен об’єкт має ряд атрибутів: якщо вам подобається, ми можемо розглядати кожен об'єкт як -вимірний вектор ознак, де кожна особливість є невід'ємним цілим числом. Чи існують прийоми використання таких прикладів подібних / несхожих об'єктів, щоб оцінити з них оптимальні вагові характеристики для міри несхожості?(ai,bi)(ci,di)d

Якщо це допоможе, у моїй заявці, ймовірно, було б розумно зосередитись на вивченні міри різниці, яка є зваженою нормою L2:

d(x,y)=jαj(x[j]y[j])2.

де ваги невідомі і їх слід вивчити. (Або якась зважена міра подібності косинусу також може бути розумною.) Чи є хороші алгоритми для вивчення ваг для такої міри, з огляду на приклади? Або є якісь інші методи вивчення міри подібності / міри несхожості, які я повинен врахувати?αjαj

На жаль, кількість вимірювань, на жаль, дуже велика (тисячі і більше; це походить від функцій "сумкових слів"). Однак у мене є багато десятків тисяч прикладів. Тоді у мене є сотні тисяч об'єктів, які я хочу кластеризувати, тому важливо узагальнити з прикладів, щоб дізнатися хороший показник несхожості.

Я вважаю, що це потрапляє в рубрику напівпідконтрольного кластеризації, і це здається, що це може бути з "жилою адаптації подібності", але я не зміг знайти чітких описів алгоритмів, які слід використовувати для цієї мети.


Дуже цікава проблема. Якщо я визнаю вашу проблему правильно, вам дається в основному порожня матриця з її елементами, що кодують попарно подібність або несхожість. Деякі елементи заповнені, але більшість відсутні. Я спробую спочатку заповнити цю матрицю (наприклад, використовуючи припущення низького рангу, наприклад).
Владислав Довгалець

@xeon, це був би один підхід, але він ігнорує функції. Моя гіпотеза полягає в тому, що деякі особливості є надзвичайно актуальними, а деякі - нерелевантними, а перегляд різниці у відповідних ознаках дає розумну метрику несхожості - але як ми можемо знайти цю метрику? Просто намагаючись заповнити матрицю, як ви пропонуєте, ігнорує цю структуру і, таким чином, не використовує в повній мірі дані, які ми маємо.
DW

Яка ваша кінцева мета? Це не просто вивчити метрику відстані, правда? Ви хочете класифікувати точки даних, чи не так?
Владислав Довгалець

1
Є речі, які, я думаю, ви не зрозуміли дуже ясно. Чи утворюють цілий набір пар прикладів повну двійкову (1 = подібну; 0 = різну) матрицю, або інформація про деякі комірки відсутня? Чи є матриця "несуперечливою" - тобто приклад об'єктів розбиває на класи, що не збігаються? Крім того, зауважте, що жоден метод навчання не може (або його слід використовувати) радити вам тип вимірювання (наприклад, L2 або L1 норма), оскільки такий вибір є теоретичним (це залежить від виду атрибутів, концептуалізації функції простір, метод кластеризації, який ви збираєтеся використовувати тоді).
ttnphns

Це занадто широко, щоб тут можна було відповісти обґрунтовано. Існує велика кількість літератури, присвяченої як зважуванню, підбору, так і вивченню функцій дистанції. Я думаю, я бачив навіть конференцію з вивчення подібності чи так!
Мав QUIT - Anonymous-Mousse

Відповіді:


6

Це велика проблема в деяких сферах машинного навчання. Я не так знайомий з цим, як хотілося б, але я думаю, що з цього слід почати.

З огляду на те, що ваші дані настільки об'ємні (і, ймовірно, рідкісні?), Можливо, вам не знадобиться нічого надто нелінійного. Можливо, аналіз компонентів сусідства найкраще почати? Це найближче до ідеї зваженої норми , як ви запропонували у своєму запитанні.L2


Так, дані рідкісні. Це виглядає надзвичайно корисно, дякую. Чи існує варіант аналізу компонентів сусідства, де матриця обмежена діагональністю (рівнозначно - діагональна)? (Схоже, це може відповідати класу заходів несхожості, згаданих у моєму запитанні вище.)QA
DW

Я не бачу, чому ви не могли включити це обмеження. Я не впевнений, чи отримана модель має назву.
Девід Дж. Харріс

1

Поклавши ваги на функції в ваших заходи подібності еквівалентно так масштабування набору даних по .ai1/wi

Іншими словами, ви запитуєте про попередню обробку даних та масштабування. Це занадто широко, щоб добре відповісти в одному запитанні. Шукати:

  • вибір функції
  • особливість зважування
  • нормалізація
  • зменшення розмірності
  • інші методи проекції
  • інші функції дистанції
  • "навчитися ранжувати"

Цьому присвячена величезна кількість літератури та навіть треків конференцій. Деякі методи для початку роботи:

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.