Чи однакова косинусна схожість на нормалізовану l2 евклідову відстань?


27

Ідентичний сенс, що він буде робити ідентичні результати для ранжирування подібності між вектором ¯u і набором векторами V .

У мене є векторна космічна модель, яка в якості параметрів має міру відстані (евклідова відстань, схожість косинусів) і техніку нормалізації (немає, l1, l2). Наскільки я розумію, результати налаштувань [косинус, жоден] повинні бути ідентичними або, принаймні, дійсно схожими на [евклідов, l2], але вони не є.

Насправді є гарна ймовірність, що система все-таки баггі - або я щось критично не вірю?

редагувати: я забув зазначити, що вектори засновані на підрахунку слів із документів у корпусі. З огляду на документ-запит (який я також перетворюю у вектор лічильників слів), я хочу знайти документ із мого корпусу, який найбільш схожий на нього.

Просто обчислення евклідової відстані - це прямий показник вперед, але в такому завданні, над яким я працюю, подібність косинусів часто віддається перевазі як показник подібності, оскільки вектори, які відрізняються лише за довжиною, все ще вважаються рівними. Документ з найменшою схожістю на відстань / косинус вважається найбільш подібним.


Все залежить від того, що робить ваша "векторна космічна модель" з цими відстанями. Не могли б ви бути більш конкретними щодо того, що робить модель?
whuber

Вибачте, іноді важко вибратися з власної голови. Я додав специфікацію.
Арн

Ви досі не описуєте жодної моделі. Насправді, єдина підказка, яку ви залишили щодо "виду завдання (над яким ви працюєте)", - це тег nlp - але це так широко, що він не дуже допомагає. Я сподіваюся, що ви можете надати, щоб люди могли зрозуміти питання та дати хороші відповіді, є достатньою інформацією, щоб можна було точно зрозуміти, як ви використовуєте мірку дистанції та як визначає, якими можуть бути результати.
whuber

stats.stackexchange.com/a/36158/3277 . Будь-яка кутова подібність типу sscp може бути конвертована у відповідне евклідову відстань.
ttnphns

Відповіді:


31

Для -нормалізованих векторів , маємо, що квадрат Евклідова відстань пропорційна косинусовій відстані , Тобто, навіть якщо ви нормалізували свої дані і ваш алгоритм був інваріантним для масштабування відстаней, ви все одно очікуєте відмінностей через квадратик.х , у | | х | | 2 = | | у | | 2 = 1 , | | х - у | | 2 22х,у

||х||2=||у||2=1,
||х-у||22=(х-у)(х-у)=хх-2ху+уу=2-2ху=2-2cos(х,у)

Чи це вплине на рейтинг? Тобто, якщо я сортую декілька векторів 'v_i в V' за їх косинусною відстані до вектора 'u', я отримую для них певне замовлення. Чи класифікація тих самих векторів з нормалізованою l_2 евклідовою відстані може призвести до того ж порядку?
Арн

2
iirc, оскільки квадратування - це монотичне перетворення (для додатних чисел), воно не може змінити порядок послідовності, відсортованої за довжиною.
Арн

5
Ви маєте рацію, якщо все, що ви робите, - класифікувати вектори за їх відстанню до , використання косинусної відстані повинно дати такий же результат, як і відстань Евкліда (для нормалізованих векторів). у
Лукас

Дякую, чи трапляється у вас джерело для цього зв’язку?
Арн

1
Ну, напевно, "Лінійної алебри I" має вистачити тоді;) ще раз дякую за розуміння!
Арн

5

уv

cos(у,v)=у,vуv=уТvуv[-1,1].
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.