Різниця між стандартними та сферичними алгоритмами k-означає

Я хотів би зрозуміти, в чому полягає основна різниця в реалізації між стандартними та сферичними алгоритмами кластеризації к-засобів.

На кожному кроці k-означає обчислює відстані між елементами векторів і центроїдами кластера і переназначає документ цьому кластеру, центроїд якого найближчий. Потім всі центроїди перераховуються.

У сферичних k-засобах всі вектори нормалізуються, а міра відстані - це косинусна несхожість.

Це все, чи є щось інше?

— користувач1315305
джерело

Питання:

Яка різниця між класичними k-засобами та сферичними k-засобами?

Класичні K-засоби:

У класичних k-засобах ми прагнемо мінімізувати евклідову відстань між центром кластера та членами кластеру. Інтуїція, що стоїть за цим, полягає в тому, що радіальна відстань від центру кластера до місця розташування елемента повинна «мати однаковість» або «бути подібною» для всіх елементів цього кластера.

Алгоритм:

Встановити кількість кластерів (також кількість кластерів)
Ініціалізуйте, випадковим чином призначивши точки в просторі для кластерних індексів
Повторюйте до сходження
- Для кожної точки знайдіть найближчий кластер і призначте точку кластеру
- Знайдіть середнє значення для кожного кластера та середнє значення центру оновлення
- Помилка - норма відстані кластерів

Сферичні K-засоби:

У сферичних k-засобах ідея полягає в тому, щоб встановити центр кожного кластера таким чином, щоб він робив однорідний і мінімальний кут між компонентами. Інтуїція схожа на погляд зірок - точки повинні мати послідовні відстані між собою. Цей простір простіше оцінити як "косинусну схожість", але це означає, що немає галактик "молочного шляху", що утворюють великі яскраві ділянки по небі даних. (Так, я намагаюся поговорити з бабусею в цій частині опису.)

Більш технічна версія:

Подумайте про вектори, речі, які ви зображуєте як стрілки з орієнтацією та фіксованою довжиною. Він може бути переведений де завгодно і бути однаковим вектором. реф

Орієнтацію точки в просторі (її кут від опорної лінії) можна обчислити за допомогою лінійної алгебри, зокрема крапкового добутку.

Якщо перемістити всі дані так, щоб їхній хвіст знаходився в одній і тій же точці, ми можемо порівняти "вектори" за їхнім кутом і згрупувати подібні в єдиний кластер.

Для наочності довжини векторів масштабують, щоб їх було легше «порівняти з очним яблуком».

Ви можете подумати про це як сузір'я. Зірки в одному скупченні в деякому сенсі близькі один одному. Це мої очні яблука, які вважаються сузір'ями.

Цінність загального підходу полягає в тому, що він дозволяє нам придумувати вектори, які в іншому випадку не мають геометричного виміру, як, наприклад, у методі tf-idf, де вектори є частотою слова в документах. Два "та" слова, що додаються, не дорівнює "the". Слова бувають неперервними та нечисловими. Вони нефізичні в геометричному сенсі, але ми можемо їх змайструвати геометрично, а потім використовувати геометричні методи для обробки. Сферичні k-засоби можна використовувати для кластеризації на основі слів.

[\begin{matrix} x 1 & y 1 & x 2 & y 2 & g r o u p \\ 0 & - 0.8 & - 0.2013 & - 0.7316 & B \\ - 0.8 & 0.1 & - 0.9524 & 0.3639 & A \\ 0.2 & 0.3 & 0.2061 & - 0.1434 & C \\ 0.8 & 0.1 & 0.4787 & 0.153 & B \\ - 0.7 & 0.2 & - 0.7276 & 0.3825 & A \\ 0.9 & 0.9 & 0.748 & 0.6793 & C \end{matrix}]

$\begin{bmatrix} x1&y1&x2&y2&group\\ 0&-0.8&-0.2013&-0.7316&B\\ -0.8&0.1&-0.9524&0.3639&A\\ 0.2&0.3&0.2061&-0.1434&C\\ 0.8&0.1&0.4787&0.153&B\\ -0.7&0.2&-0.7276&0.3825&A\\ 0.9&0.9&0.748&0.6793&C\\ \end{bmatrix}$

Деякі моменти:

Вони проектуються в одиничну сферу для обліку відмінностей у довжині документа.

Давайте попрацюємо над фактичним процесом, і подивимось, наскільки (погано) було моє «очне яблуко».

Процедура така:

(неявне в проблемі) з'єднайте хвости векторів за початком
проект на одиничну сферу (для врахування відмінностей у довжині документа)
використовувати кластеризацію для мінімізації " косинусної несхожості "

J = \sum_{i} d (x_{i}, p_{c (i)})

$J = \sum_{i} d \left( x_{i},p_{c\left( i \right)} \right)$

d (x, p) = 1 - c o s (x, p) = \frac{⟨ x, p ⟩}{‖ x ‖ ‖ p ‖}

$d \left( x,p \right) = 1- cos \left(x,p\right) = \frac{\langle x,p \rangle}{\left \|x \right \|\left \|p \right \|}$

(незабаром буде більше змін)

Посилання:

— EngrStudent - Відновлення Моніки
джерело

У текстових файлах я думаю, що функція "diff", яка вирівнює символи або вказує на зміни ваг, може бути корисною попередньою

— обробкою

Я отримую "Заборонений доступ" за посиланням у №1 ( sci.utah.edu/~weiliu/research/clustering_fmri/… )

— David Doria

@David - мене теж. Завжди в русі ... Інтернет? Будь ласка, хвилиночку.

— EngrStudent

Після певного вагання я вирішив зараз відповісти на цю відповідь. Це не тільки занадто "бабусине" пояснення, це неточне.

radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster

звучить просто неправильно або тупо. У both uniform and minimal the angle between components"компонентах" не визначено. Я сподіваюся, що ви могли б покращити потенційно чудову відповідь, якщо зробите це трохи більш суворо і розширено.

— ttnphns