Запитання з тегом «pca»

Аналіз основних компонентів (PCA) - це метод лінійного зменшення розмірності. Це зводить багатоваріантний набір даних до меншого набору побудованих змінних, зберігаючи якомога більше інформації (стільки варіацій). Ці змінні, які називаються основними компонентами, є лінійними комбінаціями вхідних змінних.

2
Матриця зворотної коваріації проти матриці коваріації в PCA
Чи має значення PCA, якщо ми вибираємо основні компоненти матриці зворотної коваріації АБО, якщо ми відкидаємо власні вектори матриці коваріації, що відповідають великим власним значенням? Це пов’язано з обговоренням у цій публікації .

2
Чи можна використовувати аналіз основних компонентів щодо цін акцій / нестаціонарних даних?
Я читаю приклад, наведений у книзі " Машинне навчання для хакерів" . Я спершу детальніше деталізую на прикладі, а потім поговору про своє запитання. Приклад : Бере набір даних за 10 років цін на акції. Працює PCA за цінами на 25 акцій. Порівняє головний компонент з індексом Dow Jones. Зауважує …

1
Що розуміється під PCA збереженням лише великих парних відстаней?
Зараз я читаю техніку візуалізації t-SNE, і було зазначено, що одним із недоліків використання аналізу основних компонентів (PCA) для візуалізації високомірних даних є те, що він зберігає лише великі парні відстані між точками. Значущі точки, які знаходяться далеко в просторі великого розміру, також з'являтимуться далеко в низькомірному підпросторі, окрім того, …

1
Чи можливий масштабний PCA?
Класичний аналіз основного компонента (PCA) - це зробити на матриці вхідних даних, стовпці якої мають нульове середнє значення (тоді PCA може "максимізувати дисперсію"). Цього можна легко досягти шляхом центрування стовпців. Однак, коли вхідна матриця буде рідкою, централізована матриця тепер буде більш рідкою, і - якщо матриця дуже велика - таким …

1
Чому всі компоненти PLS разом пояснюють лише частину дисперсії вихідних даних?
У мене є набір даних, що складається з 10 змінних. Я провів часткові найменші квадрати (PLS), щоб передбачити єдину змінну відповіді на цих 10 змінних, вилучив 10 компонентів PLS, а потім обчислив дисперсію кожного компонента. За вихідними даними я взяв суму дисперсій усіх змінних, яка дорівнює 702. Потім я розділив …

1
Чи все ж PCA проводиться за допомогою ейгендекомпозиції матриці коваріації, коли розмірність більша за кількість спостережень?
У мене є матриця , що містить мій зразків у -вимірному просторі. Тепер я хочу зашифрувати власний аналіз основних компонентів (PCA) в Matlab. Я спочатку применшую до .20×10020×10020\times100XXXN=20N=20N=20D=100D=100D=100XXXX0X0X_0 Я читав з чийогось коду, що в таких сценаріях, де у нас більше вимірів, ніж спостережень, ми більше не розкладаємо власне матрицю …
10 pca 

2
Застосування PCA для тестування даних для цілей класифікації
Нещодавно я дізнався про чудовий PCA і зробив приклад, викладений у документації scikit-learn . Мені цікаво знати, як я можу застосувати PCA до нових точок даних для цілей класифікації. Після візуалізації PCA у двовимірній площині (вісь x, y) я бачу, що, ймовірно, можу провести лінію для розділення точок даних, щоб …

1
Плутати у візуальному поясненні власних векторів: як візуально різні набори даних мають однакові власні вектори?
Багато підручників зі статистикою дають інтуїтивну ілюстрацію того, що являють собою власні вектори матриці коваріації: Вектори u і z утворюють власні вектори (ну, ейенакси). Це має сенс. Але одне, що мене бентежить, - це те, що ми отримуємо власні вектори з кореляційної матриці, а не з необроблених даних. Крім того, …

2
Які хороші показники для оцінки якості підходу до PCA, щоб вибрати кількість компонентів?
Яка хороша метрика для оцінки якості аналізу основних компонентів (PCA)? Я виконував цей алгоритм на наборі даних. Моєю метою було зменшити кількість функцій (інформація була дуже зайвою). Я знаю, відсоток збереженої дисперсії є хорошим показником того, скільки інформації ми зберігаємо, чи є інші інформаційні метрики, якими я можу скористатися, щоб …

3
Чи зменшення розмірів завжди втрачає деяку інформацію?
Як говорить заголовок, чи зменшення розмірності завжди втрачає деяку інформацію? Розглянемо для прикладу PCA. Якщо дані, які я маю, дуже рідкісні, я б припустив, що «краще кодування» вдасться знайти (це якимось чином пов'язане з рангом даних?), І нічого не буде втрачено.

1
Як інтерпретувати цей біклот PCA, що виходить із опитування, які сфери людей цікавлять?
Передумови: Я запитав сотні учасників мого опитування, наскільки вони зацікавлені у вибраних областях (п’ятибальною шкалою Лікерта, 1 зазначає "не зацікавлений" та 5 - "зацікавлений"). Потім я спробував PCA. На малюнку нижче - проекція перших двох основних компонентів. Кольори використовуються для статі, а стрілки PCA - оригінальні змінні (тобто інтереси). Я …

3
Вибір кількості основних компонентів для збереження
Один із запропонованих мною методів - переглянути графік обсипу та перевірити "ліктем", щоб визначити правильну кількість ПК для використання. Але якщо сюжет не зрозумілий, чи має R обчислення для визначення числа? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
Чому Anova () та drop1 () надали різні відповіді для GLMM?
У мене є GLMM форми: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Під час використання drop1(model, test="Chi")я отримую інші результати, ніж якщо я використовую Anova(model, type="III")з автомобільного пакета або summary(model). Ці два останні дають однакові відповіді. Використовуючи купу сфабрикованих даних, я виявив, що …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
Використання куртозу для оцінки значущості компонентів незалежного компонентного аналізу
В PCA власне значення визначають порядок складових. У ICA я використовую куртоз для отримання замовлення. Які деякі прийняті методи для оцінки кількості (якщо я маю порядок) компонентів, які є важливими, крім попередніх знань про сигнал?

2
Що стосується факторного аналізу (або PCA), що означає завантаження факторів більше 1?
Я щойно запускав FA за допомогою косого обертання (promax), і елемент давав коефіцієнт завантаження 1,041 на один коефіцієнт (і множинні коефіцієнти -131, -.119 та .065 на інші фактори за допомогою матриці шаблону ) . І я не впевнений, що це означає, я подумав, що це може бути лише між -1 …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.