Запитання з тегом «high-dimensional»

Відноситься до великої кількості функцій або розмірів (змінних) даних. (Для великої кількості точок даних використовуйте тег [big-data]; якщо проблема - більша кількість змінних, ніж дані, використовуйте тег [underdetermined].)

8
Чому евклідова відстань не є хорошою метрикою у великих розмірах?
Я читав, що «Евклідова відстань - це не дуже добра відстань у великих розмірах». Я думаю, це твердження має щось спільне з прокляттям розмірності, але що саме? Крім того, що таке "високі розміри"? Я застосовував ієрархічну кластеризацію за допомогою евклідової відстані зі 100 ознаками. На скільки функцій безпечно використовувати цей …

11
Поясніть дитині «Прокляття розмірності»
Я багато разів чув про прокляття розмірності, але якось ще не в змозі зрозуміти цю думку, це все туманно. Чи може хтось пояснити це найбільш інтуїтивно, як ви пояснили це дитині, щоб я (та інші, що плуталися, як і я) міг зрозуміти це назавжди? Редагувати: А тепер скажімо, що дитина …

7
Кращий алгоритм PCA для величезної кількості функцій (> 10 К)?
Раніше я запитував це в StackOverflow, але, здається, це може бути більш доречним, враховуючи, що він не отримав відповідей на SO. Це свого роду на перетині між статистикою та програмуванням. Мені потрібно написати якийсь код, щоб зробити PCA (аналіз основних компонентів). Я переглянув відомі алгоритми і реалізував цей , який, …

3
Як оцінити параметр усадки в регресії Лассо або хребта за допомогою змінних> 50K?
Я хочу використовувати регресію Лассо або хребта для моделі з більш ніж 50 000 змінних. Я хочу зробити це за допомогою програмного пакету в Р. Як я можу оцінити параметр усадки ( )?λλ\lambda Зміни: Ось цей момент я вирішив: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, …

3
Чи слід вважати зменшення розмірності для візуалізації «закритою» проблемою, вирішеною t-SNE?
Я багато читав про алгоритм -sneтtt для зменшення розмірності. Я дуже вражений роботою на "класичних" наборах даних, як-от MNIST, де вона чітко розмежовує цифри ( див. Оригінальну статтю ): Я також використовував це для візуалізації функцій, засвоєних нейронною мережею, яку я навчаю, і я був дуже задоволений результатами. Отже, наскільки …

1
Чому LASSO не знаходить мою ідеальну пару передбачувачів у високій розмірності?
Я проводжу невеликий експеримент з регресією LASSO в R, щоб перевірити, чи зможе він знайти ідеальну пару передбачувачів. Пара визначається так: f1 + f2 = результат Результатом цього є заздалегідь визначений вектор, який називається "вік". F1 і f2 створюються, беручи половину вікового вектора і встановлюючи решта значень 0, наприклад: age …

1
Чи слід центрирувати дані + масштабувати перед застосуванням t-SNE?
Деякі функції моїх даних мають великі значення, а інші мають значно менші значення. Чи потрібно центрувати + масштабні дані перед застосуванням t-SNE, щоб запобігти зміщенню до великих значень? Я використовую реалізацію sklern.manifold.TSNE Python із метрикою евклідової відстані за замовчуванням.

4
Чи існує "прокляття розмірності" насправді в реальних даних?
Я розумію, що таке "прокляття розмірності", і я зробив деякі проблеми з оптимізацією високих розмірів і знаю виклик експоненціальних можливостей. Однак я сумніваюся, чи існує "прокляття розмірності" у більшості даних реального світу (ну давайте на хвилину відкладемо зображення чи відео, я думаю про такі дані, як демографічні дані про клієнта …

1
Високомірна регресія: чому
Я намагаюся ознайомитися з дослідженнями в області високомірної регресії; коли ppp більше nnn , т, p>>np>>np >> n . Схоже, що термін logp/nlog⁡p/n\log p/n часто з'являється з точки зору швидкості конвергенції для регресійних оцінювачів. β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. Зазвичай це також означає, …

1
Чи впливає прокляття розмірності на деякі моделі більше, ніж на інші?
Місця, які я читав про прокляття розмірності, пояснюють це в поєднанні насамперед з kNN та лінійними моделями взагалі. Я регулярно бачу найкращих рейтингів у Kaggle, використовуючи тисячі функцій на наборі даних, які навряд чи мають 100k балів даних. Вони, в основному, використовують бусте дерева та NN, серед інших. Це багато …

3
PCA на текстових даних з великими розмірами до випадкової лісової класифікації?
Чи є сенс робити PCA перед проведенням випадкової лісової класифікації? Я маю справу з текстовими даними з високими розмірами, і я хочу зробити зменшення функції, щоб уникнути прокляття розмірності, але чи не випадкові ліси вже мають якесь зменшення розмірності?


2
Чи є лінійна лінійна регресія в 3 вимірах площиною, яка найкраще підходить, або лінія, що найкраще підходить?
Наш професор не потрапляє в математику чи навіть геометричне зображення множинної лінійної регресії, і це мене трохи збентежило. З одного боку, це все ще називається множинною лінійною регресією, навіть у більш високих розмірах. З іншого боку, якщо ми, наприклад , Y = B 0 + B 1 X 1 + …

4
Прокляття розмірності: kNN класифікатор
Я читаю книгу Кевіна Мерфі: Машинне навчання - ймовірнісна перспектива. У першому розділі автор пояснює прокляття розмірності, і є частина, яку я не розумію. Як приклад, автор зазначає: Розглянемо, що входи рівномірно розподілені по D-мірному кубі одиниці. Припустимо, ми оцінюємо щільність міток класу шляхом вирощування гіпер куба навколо х до …

1
Чи є теорема відносного контрасту від Beyer et al. стаття: "Про дивну поведінку метрики відстані у просторі великого розміру" вводить в оману?
Це цитується дуже часто, коли згадується прокляття розмірності і йде (формула праворуч називається відносним контрастом) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 Результат теореми показує, що різниця між максимальною та мінімальною відстаніми до заданої точки запиту не збільшується так швидко, як найближча відстань …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.