Коли сьогодні має значення "Найближчий сусід"?

У 1999 р. Beyer et al. запитав, коли має значення "Найближчий сусід"?

Чи є кращі способи аналізу та візуалізації ефекту площини відстані на пошук NN з 1999 року?

Чи дає [даний] набір даних змістовні відповіді на проблему 1-NN? Проблема 10-NN? Проблема 100 NN?

Як би Ви сьогодні підходили до цього питання?

Редагує понеділок, 24 січня:

Як щодо "відстані відбиття" як коротшої назви "відстань площини зі збільшенням розмірності"?

Найпростіший спосіб поглянути на "відстань пробігу" - це пробіг 2-НН та накреслення відстаней до найближчого та другого найближчих сусідів. На графіку нижче показано dist ₁ і dist ₂ для ряду кластерів і розмірів, Монте-Карло. Цей приклад показує досить хороший контраст на відстань для масштабованої абсолютної різниці | dist ₂ - dist ₁ |. (Відносні відмінності | dist ₂ / dist ₁ | → 1 як розмірність → ∞, тому стають марними.)

Незалежно від того, чи слід використовувати абсолютні помилки або відносні помилки в заданому контексті, звичайно, залежить від присутнього "реального" шуму: важко.

Пропозиція: завжди виконуйте 2-NN; 2 сусіди корисні, коли вони поруч, а корисні, коли ні.

введіть тут опис зображення

machine-learning k-nearest-neighbour

— деніс
джерело

Бейєр та ін. Схоже, йдеться про дещо інший аспект проблеми NN. Але, для (бінарних) цілей класифікації, в м'яких умовах це класичний результат, що 1-NN класифікація має, в гіршому випадку , вдвічі більше, ніж асимптотично помилка (наприклад, оптимального) класифікатора Байєса. Іншими словами, перший найближчий сусід містить "принаймні половину інформації" про мітку цілі як найкращого класифікатора. У цьому сенсі 1-НН видається досить актуальним. (Див. Cover and Hart (1967) для більше. Я здивований, що Бейєр та ін. Не цитують це.)

— кардинал

@cardinal, схоже, що пов'язаний Cover-Hart взагалі не залежить від розмірності, як ви говорите, інший аспект?

— denis

так, я вважаю, що це правда, і це, здебільшого, було моїм пунктом у вихованні. 1-NN здається досить актуальним у цьому сенсі, тобто той факт, що він працює (так) добре (теоретично) рівномірно в вимірі простору функцій, здається, допомагає йому стати самостійно, незалежно від поведінки найближчих і найдальші сусіди - у великому розмірному просторі. Мене змушує замислитися, чи знав Бейєр взагалі про цей (класичний) результат.

— кардинал

@cardinal Вгорі сторінки 24 у Cover and Hart виглядає як місце, де потенційно може виникнути проблема в їх доказ, на кроці, де Cover і Hart стверджують, що кожен RV x \ in X має властивість, яку має кожна відкрита сфера приблизно x ненульовий показник. Якщо розглядати геометрію гіперсфери, ми бачимо, що об'єм внутрішніх частин гіперсфери зменшується зі збільшенням розмірності, тому, в межі, відкрита куля приблизно x містить у своєму інтер'єрі лише x. Альтернативно, через SLLN, iid RV x у метричному просторі X лежать у поверхні гіперсфери з вірогідністю одиниці.

— Боб Дюррант

Дивіться також показники L1 або L.5 для кластеризації .

— denis

Відповіді:

У мене немає повної відповіді на це питання, але я можу дати часткову відповідь на деякі аналітичні аспекти. Попередження: Я працюю над іншими проблемами з першого документу нижче, тому, швидше за все, є інші хороші речі, про які я не знаю.

По-перше, я думаю, що варто відзначити, що, незважаючи на назву їхньої статті "Коли має значення" найближчий сусід ", Бейєр та ін. Насправді відповіли на інше питання, а саме, коли NN не має сенсу. Ми довели зворотне до їх теореми, під деякими додатковими м'якими припущеннями щодо розміру вибірки, в значенні “Коли найближчий сусід” значуще: теорема зворотного і наслідки. Журнал складності, 25 (4), серпень 2009 р., С. 385-397.і показав, що бувають ситуації, коли (теоретично) концентрація відстаней не виникне (ми наводимо приклади, але, по суті, кількість нешумних особливостей має зростати з розмірністю, тому, звичайно, вони рідко виникають на практиці). Посилання 1 і 7, цитовані в нашій роботі, дають кілька прикладів способів зменшення концентрації на відстані на практиці.

Доповідь мого керівника Ата Кабана розглядає, чи зберігаються ці проблеми концентрації на відстані, незважаючи на застосування методик зменшення розмірності в „Поінформованості про відстань концентрації певних методів зменшення даних”. Розпізнавання образів. Вип. 44, випуск 2, лютий 2011, стор.265-277. . Там теж є хороша дискусія.

$k$

— Боб Дюрант
джерело

Дякую Боб, +1. Питання, пов’язане з цим, чи маєте ви велике правило для вибору значення дробово-метричної q (або я повинен задати це окремим запитанням)?

— denis

q = 1 / p

$q=1/p$

p > 1

$p>1$

p

$p$

l_{0}

$l_0$

p = 1

$p=1$

l_{1}

$l_{1}$

l_{q = 1 / p}

$l_{q=1/p}$

p > 1

$p>1$

p

$p$

\sum | a_{j} - b_{j} |^{q}

$\sum |a_j - b_j|^q$

1 / q

$1/q$

< q <

$< q <$

ℓ_{p}

$\ell_{p}$

Можливо, вас зацікавить аналіз компонентів мікрорайону Goldberger та ін.

Тут вивчається лінійне перетворення для максимізації очікуваних правильно класифікованих точок за допомогою стохастичного вибору найближчого сусідства.

Як побічний ефект із даних визначається (очікувана) кількість сусідів.

— байерж
джерело

Дякую байєру Здається, що "дистанційне навчання у метриці" процвітає - вчений.goo має 50 назв з 2008 року. Але це бум-папір, чи це реально використовувати? Зноска, код для nca говорить "повторення ... принаймні 100000 для хороших результатів". Зноска 2, більшість робіт з дистанційного метричного навчання, здається, моделює відстань махаланобіса; Ви б знали про інші моделі відстаней?

— деніс

У мене є різний досвід роботи з NCA - він зазвичай для мене сходить досить прискіпливо. Оформити замовлення "Зменшення розмірності за допомогою вивчення інваріантного відображення" від LeCun та "Зміна мінімальних втрат для компактних двійкових кодів" від Norouzi.

— байерж