У 1999 р. Beyer et al. запитав, коли має значення "Найближчий сусід"?
Чи є кращі способи аналізу та візуалізації ефекту площини відстані на пошук NN з 1999 року?
Чи дає [даний] набір даних змістовні відповіді на проблему 1-NN? Проблема 10-NN? Проблема 100 NN?
Як би Ви сьогодні підходили до цього питання?
Редагує понеділок, 24 січня:
Як щодо "відстані відбиття" як коротшої назви "відстань площини зі збільшенням розмірності"?
Найпростіший спосіб поглянути на "відстань пробігу" - це пробіг 2-НН та накреслення відстаней до найближчого та другого найближчих сусідів. На графіку нижче показано dist 1 і dist 2 для ряду кластерів і розмірів, Монте-Карло. Цей приклад показує досить хороший контраст на відстань для масштабованої абсолютної різниці | dist 2 - dist 1 |. (Відносні відмінності | dist 2 / dist 1 | → 1 як розмірність → ∞, тому стають марними.)
Незалежно від того, чи слід використовувати абсолютні помилки або відносні помилки в заданому контексті, звичайно, залежить від присутнього "реального" шуму: важко.
Пропозиція: завжди виконуйте 2-NN; 2 сусіди корисні, коли вони поруч, а корисні, коли ні.