Запитання з тегом «dimensionality-reduction»

Посилається на методи зменшення великої кількості змінних чи розмірів, що охоплюються даними, до меншої кількості вимірів, зберігаючи якомога більше інформації про дані. Визначні методи включають PCA, MDS, Isomap тощо. Два основні підкласи методик: вилучення можливостей та вибір функцій.

3
Зв'язок між SVD та PCA. Як використовувати SVD для виконання PCA?
Аналіз основних компонентів (PCA) зазвичай пояснюється шляхом власного розкладання коваріаційної матриці. Тим НЕ менше, він також може бути виконаний з допомогою сингулярного розкладання (SVD) матриць даних . Як це працює? Який зв’язок між цими двома підходами? Який взаємозв'язок між SVD та PCA?ХX\mathbf X Або іншими словами, як використовувати SVD матриці …

1
Як повернути PCA та реконструювати оригінальні змінні з декількох основних компонентів?
Аналіз основних компонентів (PCA) може бути використаний для зменшення розмірності. Після такого зменшення розмірності, як можна приблизно реконструювати вихідні змінні / ознаки з невеликої кількості основних компонентів? Як варіант, як можна видалити або вилучити з даних кілька основних компонентів? Іншими словами, як повернути PCA? Враховуючи, що PCA тісно пов'язаний з …

11
Поясніть дитині «Прокляття розмірності»
Я багато разів чув про прокляття розмірності, але якось ще не в змозі зрозуміти цю думку, це все туманно. Чи може хтось пояснити це найбільш інтуїтивно, як ви пояснили це дитині, щоб я (та інші, що плуталися, як і я) міг зрозуміти це назавжди? Редагувати: А тепер скажімо, що дитина …

4
PCA і пропорція дисперсії пояснюється
Загалом, що мається на увазі під тим, що частка дисперсії в аналізі на зразок PCA пояснюється першою основною складовою? Чи може хтось пояснити це інтуїтивно, але також дати точне математичне визначення того, що означає "роз’яснення дисперсії" з точки зору аналізу основних компонентів (PCA)?хxx Для простої лінійної регресії r-квадрат найкращої підходящої …

2
Чим відрізняється відбілювання ZCA від відбілювання PCA?
Мене бентежить питання відбілювання ZCA та нормального відбілювання (що отримується шляхом ділення основних компонентів на квадратні корені власних значень PCA). Наскільки мені відомо, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},деUU\mathbf U - власні вектори PCA. У чому полягає застосування відбілювання ZCA? Які відмінності між нормальним відбілюванням та відбілюванням ZCA?

6
Принциповий спосіб згортання категоріальних змінних з багатьма рівнями?
Які методи доступні для згортання (чи об'єднання) багатьох категорій до кількох, з метою використання їх як вхідних даних (прогнозів) у статистичній моделі? Розглянемо таку змінну, як студент коледжу (дисципліна, яку обирає студент). Це не упорядковане і категоричне, але потенційно воно може мати десятки різних рівнів. Скажімо, я хочу використовувати мажор …

3
Чи може PCA працювати для булевих (бінарних) типів даних?
Я хочу зменшити розмірність систем вищого порядку і захопити більшу частину коваріації на переважно двовимірне або 1 мірне поле. Я розумію, що це можна зробити за допомогою аналізу основних компонентів, і я використовував PCA у багатьох сценаріях. Однак я ніколи не використовував його з булевими типами даних, і мені було …

2
Коли t-SNE вводить в оману?
Цитуючи одного з авторів: t-Розподілене стохастичне сусідське вбудовування (t-SNE) - це ( виграшний ) метод зменшення розмірності, який особливо добре підходить для візуалізації високомірних наборів даних. Так це звучить досить чудово, але це той, хто говорить Автору. Ще одна цитата автора (ре: вищезгаданий конкурс): Що ви зняли з цього змагання? …

3
Чому t-SNE не використовується як метод зменшення розмірності для кластеризації чи класифікації?
У недавньому призначенні нам сказали використовувати PCA на цифрах MNIST, щоб зменшити розміри з 64 (8 x 8 зображень) до 2. Потім нам довелося кластеризувати цифри за допомогою Гауссової моделі суміші. PCA, що використовує лише 2 основних компоненти, не дає чітких кластерів, і в результаті модель не в змозі створити …

1
Яка інтуїтивно зрозуміла причина обертання у Факторному аналізі / PCA та як вибрати відповідне обертання?
Мої запитання Яка інтуїтивно зрозуміла причина обертання факторів у факторному аналізі (або компонентів у PCA)? Моє розуміння: якщо змінні майже однаково завантажені у верхніх компонентах (або факторах), то, очевидно, складно диференціювати компоненти. Тож у цьому випадку можна використовувати обертання для кращої диференціації компонентів. Це правильно? Які наслідки ротації? На які …

1
Як PCA допоможе в аналізі кластеризації k-означає?
Передумови : Я хочу класифікувати житлові райони міста на групи на основі їх соціально-економічних характеристик, включаючи щільність житлових одиниць, густоту населення, площу зелених насаджень, ціну житла, кількість шкіл / медичних центрів / дитсадок тощо. Хочу зрозуміти, на скільки різних груп можна розділити житлові райони та які їх унікальні характеристики. Ця …

1
Зменшення розмірності (SVD або PCA) на великій розрідженій матриці
/ редагувати: подальше спостереження зараз ви можете використовувати irlba :: prcomp_irlba / редагувати: слідкувати за моєю власною публікацією. irlbaтепер є аргументи "центр" і "шкала", які дозволяють використовувати його для обчислення основних компонентів, наприклад: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v У мене є велика кількість розрізнених Matrixфункцій, які …

5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
Як зробити зменшення розмірності в R
У мене є матриця, де a (i, j) повідомляє мені, скільки разів я переглядав сторінку j. Є 27K осіб та 95K сторінок. Мені хотілося б, щоб у просторі сторінок було кілька "вимірів" або "аспектів", які відповідали б наборам сторінок, які часто переглядаються разом. Моя кінцева мета - згодом мати можливість …

2
Чому LDA, що вивчає Scitit Python, не працює належним чином і як він обчислює LDA за допомогою SVD?
Я використовував лінійний дискримінантний аналіз (LDA) з scikit-learnбібліотеки машинного навчання (Python) для зменшення розмірності і трохи цікавився результатами. Мені зараз цікаво, чим scikit-learnзаймається LDA , щоб результати виглядали інакше, ніж, наприклад, ручний підхід або LDA, зроблені в Р. Було б чудово, якби хтось міг дати мені тут деяку інформацію. Що …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.