Коли можна використовувати відстань Манхеттена як протилежну евклідовій відстані?


18

Я намагаюся шукати хороший аргумент щодо того, чому можна використовувати відстань Манхеттена над евклідовою дистанцією в машинному навчанні.

Найближча річ, яку я вважаю хорошим аргументом до цих пір, є на цій лекції MIT .

О 36:15 на слайдах ви можете побачити таке твердження:

"Зазвичай використовують евклідову метрику; Манхеттен може бути доречним, якщо різні розміри не порівнянні ".

Незабаром після того, як професор каже, що через те, що кількість ніг рептилії коливається від 0 до 4 (тоді як інші ознаки є двійковими, змінюються лише від 0 до 1), "кількість ніг" у кінцевому підсумку матиме набагато більше вага, якщо використовується евклідова відстань. Звичайно, це правда. Але ця проблема також була б, якщо використовувати відстань на Манхеттені (лише щоб проблема була трохи пом'якшена, оскільки ми не квадратуємо різницю, як це робимо на евклідовій відстані).

Кращим способом вирішити вищезазначену проблему було б нормалізація функції "кількість ніжок", тому її значення завжди буде від 0 до 1.

Тому, оскільки існує кращий спосіб вирішити проблему, здавалося, що в аргументі використання дистанції Манхеттена в цьому випадку бракує більш сильної точки, принаймні, на мою думку.

Хтось насправді знає, чому і коли хтось використав би відстань на Манхеттені над евклідовою? Чи може хтось надати мені приклад, у якому використання дистанції на Манхеттені дасть кращі результати?

Відповіді:


4

Згідно з цією цікавою роботою, відстань Манхеттена (норма L1) може бути кращою евклідовій відстані (норма L2) у випадку даних високих розмірів:

https://bib.dbvis.de/uploadedFiles/155.pdf

Автори статті навіть роблять крок далі і пропонують використовувати нормальні відстані Lk з дробовим значенням k для дуже високих розмірних даних, щоб покращити результати алгоритмів, заснованих на відстані, як кластеризація.


stats.stackexchange.com/a/99191 надає більш повну відповідь
мікрофон

3

Я можу запропонувати пару ідей, із вікіпедії .

  1. Якщо ви хочете зробити менший акцент на людей, що відпадають, відстань на Манхеттені намагатиметься зменшити всі помилки однаково, оскільки градієнт має постійну величину.
  2. Якщо ваш шум поширюється лапласіанським, MLE виявляється шляхом мінімізації оцінки на Манхеттені.

3

Я знайшов щось, що може бути інтуїцією щодо цієї проблеми в практичному машинному навчанні за допомогою Scikit-Learn та TensorFlow

І RMSE, і MAE - це способи вимірювання відстані між двома векторами: вектором прогнозів та вектором цільових значень. Можливі різні дистанційні заходи або норми:

  • Обчислення кореня суми квадратів (RMSE) відповідає евклідовій нормі: це поняття відстані, яке ви знайоме. Його також називають нормою ℓ2 (...)

  • Обчислення суми абсолютів (МАЕ) відповідає нормі ℓ1, (...). Його іноді називають нормою Манхеттена, оскільки він вимірює відстань між двома точками в місті, якщо ви можете подорожувати лише ортогональними міськими кварталами.

  • Більш загально, (...) ℓ 0 просто дає кількість ненульових елементів у векторі, а ℓ∞ дає максимальне абсолютне значення у векторі.

  • Чим вище показник норми, тим більше він зосереджується на великих значеннях і нехтує малими. Ось чому RMSE є більш чутливим до людей, що виживають, ніж MAE. Але коли аутлієри є експоненціально рідкісними (як у кривій дзвіночці), RMSE працює дуже добре і зазвичай є кращим.


2

Використання відстані на Манхеттені багато в чому залежить від типу системи координат, яку використовує ваш набір даних. Хоча евклідова відстань дає найменшу або мінімальну відстань між двома точками, на Манхеттені є конкретні реалізації.

Наприклад, якби ми використовували шаховий набір даних, використання відстані Манхеттена є більш доцільним, ніж евклідова відстань. Інше використання буде, коли зацікавлено знати відстань між будинками, які розташовані в декількох кварталах.

Крім того, ви можете розглянути відстань на Манхеттені, якщо вхідні змінні не схожі за типом (наприклад, вік, стать, зріст тощо). Через прокляття розмірності ми знаємо, що евклідова відстань стає поганим вибором із збільшенням кількості вимірів.

Отже, коротко: Манхеттенська відстань, як правило, працює лише в тому випадку, якщо точки розташовані у вигляді сітки, і проблема, над якою ми працюємо, надає більше пріоритету відстані між точками лише разом з сітками, але не геометричній відстані.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.