Запитання з тегом «dimensionality-reduction»

Посилається на методи зменшення великої кількості змінних чи розмірів, що охоплюються даними, до меншої кількості вимірів, зберігаючи якомога більше інформації про дані. Визначні методи включають PCA, MDS, Isomap тощо. Два основні підкласи методик: вилучення можливостей та вибір функцій.

1
Який зв’язок між частковими найменшими квадратами, зменшеною регресією регресу та регресією основних компонентів?
Чи є регресія зі зниженим рангом та регресія головних компонентів лише особливими випадками часткових найменших квадратів? У цьому підручнику (Сторінка 6, "Порівняння цілей") зазначено, що коли ми робимо часткові найменші квадрати, не проектуючи X або Y (тобто "не часткові"), це стає відповідно регресією регресії чи регресією головного компонента. Аналогічне твердження …

4
Які змінні пояснюють, які компоненти PCA, і навпаки?
Використовуючи ці дані: head(USArrests) nrow(USArrests) Я можу зробити PCA так: plot(USArrests) otherPCA <- princomp(USArrests) Я можу отримати нові компоненти otherPCA$scores і частка дисперсії, поясненої компонентами з summary(otherPCA) Але що робити, якщо я хочу знати, які змінні в основному пояснюються основними компонентами? І навпаки: пояснюється, наприклад, PC1 або PC2 murder? Як …

2
Методи злиття / зменшення категорій у порядкових або номінальних даних?
Я намагаюся знайти спосіб зменшення кількості категорій у номінальних чи порядкових даних. Наприклад, скажімо, що я хочу побудувати регресійну модель на наборі даних, яка має ряд номінальних та порядкових факторів. Хоча у мене немає проблем з цим кроком, я часто стикаюся з ситуаціями, коли номінальна функція не має спостережень у …

3
PCA на текстових даних з великими розмірами до випадкової лісової класифікації?
Чи є сенс робити PCA перед проведенням випадкової лісової класифікації? Я маю справу з текстовими даними з високими розмірами, і я хочу зробити зменшення функції, щоб уникнути прокляття розмірності, але чи не випадкові ліси вже мають якесь зменшення розмірності?

3
Вибір гіперпараметрів з використанням T-SNE для класифікації
В якості специфічної проблеми, з якою я працюю (конкуренція), у мене є наступне налаштування: 21 функція (числовий на [0,1]) та двійковий вихід. У мене близько 100 К рядків. Налаштування здається дуже галасливим. Я та інші учасники впродовж певного часу застосовуємо генерацію функцій, і вбудована стохастична сусідська вбудована версія t виявилася …

1
Контрольоване зменшення розмірності
У мене є набір даних, що складається з 15K зразків з міткою (з 10 груп). Я хочу застосувати зменшення розмірності на 2 виміри, які б враховували знання етикетки. Коли я використовую "стандартні" методи безконтрольного зменшення розмірності, такі як PCA, графік розсіювання, здається, не має нічого спільного з відомими мітками. Чи …

2
Чим відрізняється вибір функції та зменшення розмірності?
Я знаю, що і вибір функції, і зменшення розмірності спрямовані на зменшення кількості ознак у вихідному наборі функцій. Яка точна різниця між ними, якщо ми робимо те саме в обох?

1
Алгебра ЛДА. Дискримінаційний потенціал Фішера та лінійний дискримінаційний аналіз
Мабуть, Аналіз Фішера спрямований на одночасне максимальне розмежування між класом, мінімізуючи дисперсію всередині класу. Отже, корисна міра потужності дискримінації змінної дана діагональною величиною: .Bii/WiiBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html Я розумію , що розмір ( p x p) з С ( Б ) і В-класу ( W ) матриці задається числом вхідних змінних, p. …

2
Чи можу я зробити ПКС щодо повторних заходів щодо зменшення даних?
У мене 3 випробування на 87 тваринах у кожному з 2 контекстів (деякі дані відсутні; відсутні дані = 64 тварини). У контексті, у мене є багато конкретних заходів в (час , щоб увійти, число раз повертаюся в притулок, і т.д.), тому я хочу , щоб розробити 2 до 3 композитної …

1
Поясніть кроки алгоритму LLE (локального лінійного вбудовування)?
Я розумію, що основний принцип алгоритму для LLE складається з трьох етапів. Пошук сусідства кожної точки даних за деяким показником, таким як k-nn. Знайдіть ваги для кожного сусіда, який позначає вплив, який має сусід на точку даних. Побудуйте низькомірне вбудовування даних на основі обчислених ваг. Але математичне пояснення кроків 2 …

1
Як вибрати ядро ​​для PCA ядра?
Які способи вибрати, яке ядро ​​призведе до гарного поділу даних у кінцевому виведенні даних за допомогою PCA ядра (аналіз основних компонентів), і які способи оптимізації параметрів ядра? Якщо можливо, умови Лаймана були б дуже вдячні, і посилання на документи, що пояснюють такі методи, також були б непоганими.

1
Яке значення осей у t-SNE?
Зараз я намагаюся обернути голову навколо математики t-SNE . На жаль, є ще одне питання, на яке я не можу відповісти задовільно: Яке власне значення осей у графіку t-SNE? Якби я виступив з доповіддю на цю тему або включив її до будь-якої публікації: Як би я належним чином позначив осі? …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Виконання PCA лише матрицею відстані
Я хочу об'єднати масивний набір даних, для якого у мене є лише попарні відстані. Я реалізував алгоритм k-medoids, але це займає занадто багато часу, тому я хотів би почати, зменшивши розмір моєї проблеми, застосувавши PCA. Однак єдиним способом, яким я знаю виконати цей метод, є використання матриці коваріації, якої у …

1
Чим корисно використовувати t-SNE, крім візуалізації даних?
У яких ситуаціях слід використовувати t-SNE (крім візуалізації даних)? T-SNE використовується для зменшення розмірності. Відповідь на це запитання говорить про те, що t-SNE слід використовувати лише для візуалізації, і ми не повинні використовувати його для кластеризації. Тоді яке корисне використання для t-SNE?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.