Запитання з тегом «dimensionality-reduction»

Посилається на методи зменшення великої кількості змінних чи розмірів, що охоплюються даними, до меншої кількості вимірів, зберігаючи якомога більше інформації про дані. Визначні методи включають PCA, MDS, Isomap тощо. Два основні підкласи методик: вилучення можливостей та вибір функцій.

1
Метод Найстрома для апроксимації ядра
Я читав про метод Nyström для апроксимації ядра низького рангу. Цей метод реалізований у scikit-learn [1] як метод проектування зразків даних до наближення низького рангу відображення функції ядра. Наскільки мені відомо, зважаючи на навчальний набір та функцію ядра, він генерує апроксимацію низького рангу матриці ядра ядра , застосовуючи SVD до …


3
Чи є якесь значення зменшення розмірності набору даних, де всі змінні приблизно ортогональні?
Припустимо, у мене є -вимірний набір даних, де розміри приблизно ортогональні (мають нульову кореляцію).NNNNNNN Чи є якась утиліта з точки зору: Візуалізація Представлення (для ефективності класифікатора) Або інші критерії виконати зменшення розмірності даних?

8
Візуалізація даних високих розмірів
У мене є зразки двох класів, які є векторами у просторі великого розміру, і я хочу побудувати їх у 2D або 3D. Я знаю про методи зменшення розмірності, але мені потрібен дійсно простий і простий у використанні інструмент (в matlab, python або заздалегідь вбудований .exe). Також мені цікаво, чи буде …

3
Які припущення факторного аналізу?
Я хочу перевірити, чи дійсно я зрозумів [класичний, лінійний] аналіз факторів (FA), особливо припущення , які зроблені до (а можливо, після) ФА. Деякі дані слід спочатку співвіднести і між ними можливе лінійне співвідношення. Після факторного аналізу дані зазвичай розподіляються (двовимірний розподіл для кожної пари) і немає кореляції між факторами (загальними …

2
Яка перевага зменшення розмірності предикторів для регресії?
Які застосування або переваги регресії зменшення розмірності (DRR) або контрольованих методів зменшення розмірності (SDR) в порівнянні з традиційними методами регресії (без зменшення розмірності)? Цей клас методів знаходить низьке розмірне представлення набору функцій для проблеми регресії. Приклади таких методів включають нарізану зворотну регресію, основні гессійські напрямки, оцінку середньої різниці нарізаних, зворотну …

7
Методика скорочення даних для виявлення типів країн
Викладаю вступний курс економічної географії. Щоб допомогти моїм студентам розвинути краще розуміння видів країн, що зустрічаються в сучасній світовій економіці, та оцінити методи скорочення даних, я хочу створити завдання, яке створює типологію різних країн (наприклад, з високим рівнем доходу, тривала тривалість життя mfg з доданою вартістю; експортер природних ресурсів з …

2
Як визначити параметри t-SNE для зменшення розмірів?
Я дуже новачок у вкладанні слів. Я хочу уявити, як виглядають документи після навчання. Я читав, що t-SNE - це підхід до цього. У мене є 100K документів з 250 розмірами як розмір вбудовування. Також є кілька пакетів. Однак для t-SNE я не знаю, скільки ітерацій чи значення альфа чи …

3
Перший головний компонент не розділяє класи, але це роблять інші ПК; як це можливо?
Я запустив PCA на 17 кількісних змінних, щоб отримати менший набір змінних, що є основними компонентами, які будуть використовуватися в контрольованому машинному навчанні для класифікації примірників на два класи. Після PCA на PC1 припадає 31% дисперсії даних, PC2 - 17%, PC3 - 10%, PC4 - 8%, PC5 - 7%, а …

2
Чому PCA максимізує загальну дисперсію проекції?
Крістофер Бішоп пише у своїй книзі Розпізнавання візерунків та машинне навчання доказом того, що кожен послідовний головний компонент максимізує дисперсію проекції до одного виміру після того, як дані проектуються в ортогональний простір до вибраних раніше компонентів. Інші демонструють подібні докази. Однак це лише доводить, що кожна послідовна складова є найкращою …

4
Чи "випадкова проекція" строго кажучи не є проекцією?
Поточні реалізації алгоритму випадкової проекції зменшують розмірність зразків даних, відображаючи їх від RdRd\mathbb R^d до RkRk\mathbb R^k використовуючи матрицю проекцій d×kd×kd\times kRRR , записи якої є відповідним розподілом (наприклад, від N(0,1)N(0,1)\mathcal N(0,1) ): x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR Зручно, що існують теоретичні докази, що показують, що це відображення приблизно зберігає попарні …

3
Коли ви використовуєте PCA, а не LDA в класифікації?
Я читаю цю статтю про різницю між принциповим аналізом компонентів та множинним дискримінантним аналізом (лінійний дискримінантний аналіз), і я намагаюся зрозуміти, чому ви коли-небудь використовуватимете PCA, а не MDA / LDA. Пояснення узагальнено наступним чином: грубо кажучи, в PCA ми намагаємося знайти осі з максимальними відхиленнями, де дані найбільш розповсюджені …

1
Чи можливий масштабний PCA?
Класичний аналіз основного компонента (PCA) - це зробити на матриці вхідних даних, стовпці якої мають нульове середнє значення (тоді PCA може "максимізувати дисперсію"). Цього можна легко досягти шляхом центрування стовпців. Однак, коли вхідна матриця буде рідкою, централізована матриця тепер буде більш рідкою, і - якщо матриця дуже велика - таким …

1
t-SNE зі змішаними безперервними та бінарними змінними
В даний час я досліджую візуалізацію об'ємних даних за допомогою t-SNE. У мене є деякі дані зі змішаними бінарними та безперервними змінними, і, схоже, ці дані занадто легко кластерують бінарні дані. Звичайно, це очікується для масштабованих (між 0 і 1) даних: евклідова відстань завжди буде найбільшим / найменшим між бінарними …

1
R лінійна регресія, категоріальна змінна значення «приховане»
Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.