Я розумію, що таке "прокляття розмірності", і я зробив деякі проблеми з оптимізацією високих розмірів і знаю виклик експоненціальних можливостей.
Однак я сумніваюся, чи існує "прокляття розмірності" у більшості даних реального світу (ну давайте на хвилину відкладемо зображення чи відео, я думаю про такі дані, як демографічні дані про клієнта та дані про поведінку покупців).
Ми можемо збирати дані з тисячами функцій, але це менш ймовірно, навіть неможливо, щоб функції могли повністю охопити простір з тисячами розмірів. Ось чому методики зменшення розмірів настільки популярні.
Іншими словами, велика ймовірність, що дані не містять експоненціального рівня інформації, тобто багато особливостей сильно корелюються і багато функцій відповідають 80-20 правилам (багато примірників мають однакове значення).
У такому випадку я думаю, що такі методи, як KNN, все ще працюватимуть досить добре. (У більшості книг «прокляття розмірності» говорить про те, що розмірність> 10 може бути проблематичною. У демонстраціях вони використовують рівномірний розподіл у всіх вимірах, де ентропія дійсно висока. Я сумніваюся, що в реальному світі це буде коли-небудь.)
Мій особистий досвід з реальними даними полягає в тому, що "прокляття розмірності" не впливає занадто сильно на шаблонний метод (наприклад, KNN) і в більшості випадків розміри ~ 100 все одно спрацьовують.
Це правда для інших людей? (Я працював з реальними даними в різних галузях промисловості протягом 5 років, ніколи не спостерігав, щоб "усі пари відстаней мають аналогічні значення", як описано в книзі.)