Непараметричні методи, як K-Найближчі-сусіди у просторі високих розмірів


11

Основна ідея k-Найближчого сусіда враховує найближчих пунктів і вирішує класифікацію даних більшістю голосів. Якщо так, то у даних з більшими розмірами не повинно виникнути проблем, оскільки такі методи, як хеш-чутливість, здатні ефективно знайти найближчих сусідів.k

Крім того, вибір функцій у байєсівських мережах може зменшити розмірність даних та полегшити навчання.

Однак у цьому оглядовому документі Джона Лафферті у статистичному навчанні вказується, що непараметричне навчання у просторових просторах з високими розмірами все ще залишається проблемою та невирішеною.

Що йде не так?


1
Будь ласка, дайте повну посилання на папір; Автори, здається, не з'являються (помітно) в ньому.
Рафаель

Відповіді:


5

Ця проблема відома як прокляття розмірності . В основному, по мірі збільшення кількості розмірів, , точки в просторі, як правило, стають далеко від усіх інших точок. Це ускладнює розділення простору (наприклад, необхідного для класифікації або кластеризації).d

Ви можете переконатися в цьому дуже легко. Я генерував випадкових розмірних точок в одиничній гіперкубі при 20 рівномірно вибраних значеннях від . Для кожного значення я обчислював відстань від першої точки до всіх інших і брав середнє значення цих відстаней. Складаючи це, ми можемо бачити, що середня відстань збільшується з розмірністю, хоча простір, в якому ми генеруємо точки у кожному вимірі, залишається однаковим.d d 1..1000 d50dd1..1000d

Середня відстань проти розмірності


Звичайно. Ви збільшуєте кількість точок у гіперсфері фіксованого радіуса експоненціально в розмірності, тому якщо ви вибираєте 50 точок рівномірно, це має відбутися. Тому, якщо ваші міркування правильні, розділення має стати простим, якщо у мене є багато зразків; Невже це так?
Рафаель

Я вважаю, що ви змінили це. Збільшуючи розмірність, Я ПІДВИЩАЮТЬ кількість точок у гіперсфері. Розмежування стає складніше, оскільки міра відстані по суті втрачає своє значення (наприклад, все далеко).
Нік

Я мав на увазі: Загальна кількість точок у гіперсфері радіуса у скажіть , тобтозростає з . N n | N nS n ( k ) | нkNn|NnSn(k)|n
Рафаель

Також зауважте, що люди мають на увазі, коли вони посилаються на просторовий простір високих розмірів, це те, що кількість вибірок, , набагато менша, ніж розмірність кожної точки, , ( ). Тож у цих проблемах ви припускаєте, що у вас НЕ "багато зразків". д п < < дndn<<d
Нік

Я не бачу, що це відповідає визначенню; здається, це конвенція, заснована на досвіді.
Рафаель

3

Не повна відповідь, але сторінка wikipedia, яку ви цитували, говорить:

Точність алгоритму k-NN може бути сильно погіршена наявністю галасливих чи неактуальних особливостей, або якщо масштаби ознак не відповідають їх важливості.

Ймовірність того, що це станеться, збільшується за наявності просторів з високими розмірами.


Але я думаю, що з PCA (принциповий аналіз компонентів) або будь-якими іншими методами для зменшення розмірності та видалення неактуальних даних, k-NN все ще може працювати. І те, що означають сторінки вікіпедії, - наївний k-NN провалиться. Отже, це не пояснює оглядовий документ.
Стрин

PCA, безумовно, може працювати, але не у всіх ситуаціях.
Дейв Кларк
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.