Я хочу дізнатися (вивести) ваги атрибутів для міри невідповідності, яку я можу використовувати для кластеризації.
У мене є кілька прикладів пар об'єктів, які є "подібними" (повинні бути в одному кластері), а також деякі приклади пар об'єктів, які "не схожі" (не повинні бути в одному кластері). Кожен об’єкт має ряд атрибутів: якщо вам подобається, ми можемо розглядати кожен об'єкт як -вимірний вектор ознак, де кожна особливість є невід'ємним цілим числом. Чи існують прийоми використання таких прикладів подібних / несхожих об'єктів, щоб оцінити з них оптимальні вагові характеристики для міри несхожості?
Якщо це допоможе, у моїй заявці, ймовірно, було б розумно зосередитись на вивченні міри різниці, яка є зваженою нормою L2:
де ваги невідомі і їх слід вивчити. (Або якась зважена міра подібності косинусу також може бути розумною.) Чи є хороші алгоритми для вивчення ваг для такої міри, з огляду на приклади? Або є якісь інші методи вивчення міри подібності / міри несхожості, які я повинен врахувати?
На жаль, кількість вимірювань, на жаль, дуже велика (тисячі і більше; це походить від функцій "сумкових слів"). Однак у мене є багато десятків тисяч прикладів. Тоді у мене є сотні тисяч об'єктів, які я хочу кластеризувати, тому важливо узагальнити з прикладів, щоб дізнатися хороший показник несхожості.
Я вважаю, що це потрапляє в рубрику напівпідконтрольного кластеризації, і це здається, що це може бути з "жилою адаптації подібності", але я не зміг знайти чітких описів алгоритмів, які слід використовувати для цієї мети.