Евклідова відстань та схожість


13

Я просто працюю з книгою «Колективний інтелект» (Тобі Сегаран) і натрапив на евклідову оцінку дистанції. У книзі автор показує, як обчислити схожість між двома рекомендаційними масивами (тобто .person×moviescore)

Він обчислює евклідову відстань для двох осіб і p 2 по d ( p 1 , p 2 ) = p1p2

d(p1,p2)=i  item(sp1sp2)2

Це має для мене цілком сенс. Те, що я насправді не розумію, це те, чому він в кінці рахує наступне, щоб отримати "схожість на відстані":

11+d(p1,p2)

Отже, я якось розумію, що це повинно бути перетворення від відстані до подібності (правда?). Але чому формуляр виглядає так? Хтось може це пояснити?


Способів перетворення несхожості та подібності між собою може бути багато - конкретна формула залежить від того, що має сенс для вас і для подальшого аналізу. У тому підручнику автор чомусь віддав перевагу формулі, яку ви показуєте; хтось інший в іншій ситуації може обрати іншу формулу. Найбільш геометрично правильний спосіб перетворення евклідової відстані у подібність випливав би з теореми косинусів за умовами, орієнтованими на дані, і описаний тут у абз. 1.
ttnphns

Гаразд! Але якщо я правильно розумію, ви насправді не перетворюєте евклідову відстань у подібність, а просто використовуєте іншу функцію, яка повертає вам значення в межах 0 і 1 (через косинус), правда? Я маю на увазі, що мені здається іншим, ніж обчислення всіх відстаней, а потім перетворення їх на подібність, наприклад, інтерполяція між найменшою та найбільшою відстані. Правильно?
навігація

Якщо у вас квадратна симетрична матриця квадратних евклідових відстаней і ви виконуєте на ній операцію "подвійного центрування", то ви отримуєте матрицю скалярних добутків, яка б спостерігалася, коли ви ставите джерело евклідового простору в центр своєї конфігурації об’єкти. Ці скалярні вироби мають схожість під кутом. Вони дуже схожі на коваріації . Вони не пов'язані в межах 0-1, вони можуть бути негативними, позитивними, а елементи діагоналі не обов'язково 1. Все-таки вони є подібністю.
ttnphns

Відповіді:


12

Зворотне - змінити відстань на подібність.

1 у знаменнику має бути таким, щоб максимальне значення було 1 (якщо відстань дорівнює 0).

Квадратний корінь - я не впевнений. Якщо відстань зазвичай більша за 1, корінь зробить великі відстані менш важливими; якщо відстань менше 1, це зробить великі відстані важливішими.


Вибачте! Квадратний корінь помилявся. Автор насправді виклав її у другій формулі, але у першій її випустив. Тож не повинно бути там
перейдіть

Так, але ваш підказ із встановленням максимального значення дорівнює 1 має сенс! Дякую!
навігація

4

Для вимірювання відстані та подібності (у семантичному сенсі) перше, що слід перевірити, - чи рухаєтесь ви в евклідовому просторі чи ні. Емпіричний спосіб перевірити це - оцінити відстань пари значень, для яких ви знаєте значення.


1

Як ви згадали, ви знаєте розрахунок відстані Евкліденції, тому я пояснюю другу формулу.

Евклідова формула обчислює відстань, яка буде меншою для людей або предметів, які є більш подібними. Як і якщо вони однакові, то відстань дорівнює 0 і абсолютно різна, ніж вище 0.

Однак нам потрібна функція, яка дає більш високе значення, вони схожі. Це можна зробити, додавши функцію 1 (так що ви не отримаєте помилку поділу на нуль) та інвертуючи її. Начебто, якщо оцінка 0 і схожість оцінка 1/1 = 1


Я не розумію цієї відповіді.
Майкл Р. Черник

Добре, скажімо, евклідова відстань між пунктом 1 і пунктом 2 дорівнює 4, а між пунктом 1 і пунктом 3 дорівнює 0 (значить, вони на 100% схожі). Це відстань елементів у віртуальному просторі. менша величина відстані означає, що вони знаходяться поруч один з одним, значить більше шансів на подібні. Тепер ми хочемо, щоб числове значення було таким, що воно дає більше число, якщо вони значно схожі. Таким чином, ми можемо обернути значення відстані. Але що, якщо ми маємо відстань, це 0, тому ми додаємо 1 у знаменник. тому показник подібності для пунктів 1 і 2 дорівнює 1 / (1 + 4) = 0,2, а для пункту1 і пункту 3 дорівнює 1 / (1 + 0) = 0
користувач10009133

Можливо, ви говорите про якусь міру відстані, але евклідова відстань дотримується конкретної формули щодо векторного простору.
Майкл Р. Черник

1/1+г(p1,p2)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.