Запитання з тегом «pca»

Аналіз основних компонентів (PCA) - це метод лінійного зменшення розмірності. Це зводить багатоваріантний набір даних до меншого набору побудованих змінних, зберігаючи якомога більше інформації (стільки варіацій). Ці змінні, які називаються основними компонентами, є лінійними комбінаціями вхідних змінних.

1
Чому Деніел Вілкс (2011) каже, що регресія основних компонентів "буде упередженою"?
У статистичних методах наук про атмосферу Даніель Вілкс зазначає, що багаторазова лінійна регресія може призвести до проблем, якщо між предикторами є дуже сильні взаємозв'язки (3-е видання, стор. 559-560): Патологія, яка може виникати при множинній лінійній регресії, полягає в тому, що набір змінних прогнозів, що мають сильні взаємні кореляції, може призвести …
13 regression  pca  bias 

1
Контрольоване зменшення розмірності
У мене є набір даних, що складається з 15K зразків з міткою (з 10 груп). Я хочу застосувати зменшення розмірності на 2 виміри, які б враховували знання етикетки. Коли я використовую "стандартні" методи безконтрольного зменшення розмірності, такі як PCA, графік розсіювання, здається, не має нічого спільного з відомими мітками. Чи …

1
Що таке основні компоненти, що обертаються та не враховуються, враховуючи, що PCA завжди обертає осі координат?
Наскільки я розумію, основні компоненти отримуються обертанням координатних осей для вирівнювання їх до напрямків максимальної дисперсії. Тим не менш, я продовжую читати про "невратовані основні компоненти", і моє програмне забезпечення для статистики (SAS) дає мені основні компоненти, що повертаються з варімаксом, а також невратовані. Тут я плутаюся: коли ми обчислюємо …

2
Чим відрізняється вибір функції та зменшення розмірності?
Я знаю, що і вибір функції, і зменшення розмірності спрямовані на зменшення кількості ознак у вихідному наборі функцій. Яка точна різниця між ними, якщо ми робимо те саме в обох?

1
Як інтерпретувати навантаження PCA?
Читаючи про PCA, я натрапив на таке пояснення: Припустимо, у нас є набір даних, де кожна точка даних являє собою одиничні бали учнів у математичному тесті, фізичному тесті, тесті на читання та тесті словникового запасу. Ми знаходимо перші два основні компоненти, які фіксують 90% змінності даних та інтерпретують їх завантаження. …
13 pca 

3
Покрокова реалізація PCA в R за допомогою підручника Ліндсі Сміт
Я працюю в R через чудовий підручник з PCA Ліндсей І Сміт, і я застрягаю на останній стадії. Сценарій R нижче приводить нас до етапу (на с. 19), де реконструюються оригінальні дані (головного компонента в цьому випадку), який повинен отримати прямий графік уздовж осі PCA1 (враховуючи, що дані має лише …
13 r  pca 

2
Вибір компонентів PCA, які розділяють групи
Я часто використовував для діагностування своїх багатоваріантних даних за допомогою PCA (дані omics із сотнями тисяч змінних і десятки чи сотні зразків). Дані часто походять від експериментів з декількома категоричними незалежними змінними, що визначають деякі групи, і мені часто доводиться пройти кілька компонентів, перш ніж я зможу знайти ті, які …

3
Як обчислити основні компоненти, обернені варімакс в R?
Я провів PCA на 25 змінних і вибрав топ-7 ПК за допомогою prcomp. prc <- prcomp(pollutions, center=T, scale=T, retx=T) Тоді я здійснив обертання varimax на цих компонентах. varimax7 <- varimax(prc$rotation[,1:7]) А тепер я хочу, щоб varimax обертав дані, обернені PCA (оскільки це не частина об'єкта varimax - лише матриця завантаження …
13 r  pca  factor-rotation 

2
Чи не повинен SVD взагалі нічого пояснювати для випадкової матриці? Що я роблю неправильно?
Якщо я будую 2-D матрицю, повністю складається з випадкових даних, я б очікував, що компоненти PCA та SVD по суті нічого не пояснюють. Натомість, здається, що перший стовпець SVD пояснює 75% даних. Як це можливо? Що я роблю неправильно? Ось сюжет: Ось код R: set.seed(1) rm(list=ls()) m <- matrix(runif(10000,min=0,max=25), nrow=100,ncol=100) …
13 r  pca  svd 

3
Чи дійсно компоненти PCA представляють відсоток дисперсії? Чи можуть вони становити більше 100%?
"Машинне навчання хакерам" О'Рейлі говорить, що кожен головний компонент становить відсоток дисперсії. Я цитував відповідну частину сторінки нижче (глава 8, с.207). Розмовляючи з іншим експертом, вони погодилися, що це відсоток. Однак 24 компоненти складають 133.2095%. Як це може бути? Переконавшись у тому, що ми можемо використовувати PCA, як це робити …
13 r  pca 

2
Чи можу я зробити ПКС щодо повторних заходів щодо зменшення даних?
У мене 3 випробування на 87 тваринах у кожному з 2 контекстів (деякі дані відсутні; відсутні дані = 64 тварини). У контексті, у мене є багато конкретних заходів в (час , щоб увійти, число раз повертаюся в притулок, і т.д.), тому я хочу , щоб розробити 2 до 3 композитної …

5
Зменшення розмірності SVD для часових рядів різної довжини
Я використовую сингулярне значення декомпозиції як метод зменшення розмірності. З огляду на Nвектори розмірності D, ідея полягає у представленні ознак у перетвореному просторі некоррельованих розмірів, що конденсує більшу частину інформації даних у власних векторах цього простору у зменшуваному порядку важливості. Зараз я намагаюся застосувати цю процедуру до даних часових рядів. …

3
Чи оптимізація PCA опукла?
Цільова функція аналізу головних компонент (PCA) є мінімізація похибки відновлення в нормі L2 (дивіться розділ 2.12 тут Інший вид намагається максимізувати дисперсію на проекції У нас також є відмінний пост тут: .. Яка цільова функція PCA ? ). Моє запитання полягає в тому, що оптимізація PCA опукла? (Я знайшов тут …

1
Пакет GBM проти Caret з використанням GBM
Я налаштовував модель за допомогою caret, але потім повторно запустив модель за допомогою gbmпакета. Наскільки я розумію, що caretпакет використовує gbmі вихід повинен бути однаковим. Однак, лише швидкий тестовий пробіг із застосуванням data(iris)показує невідповідність моделі приблизно 5%, використовуючи RMSE і R ^ 2 в якості метрики оцінювання. Я хочу знайти …

1
Оцінки PCA та компонентів на основі суміші безперервних та бінарних змінних
Я хочу застосувати PCA до набору даних, який складається із змінних типів змішаного типу (безперервної та двійкової). Щоб проілюструвати процедуру, я вставляю мінімальний відтворюваний приклад в R нижче. # Generate synthetic dataset set.seed(12345) n <- 100 x1 <- rnorm(n) x2 <- runif(n, -2, 2) x3 <- x1 + x2 + …
13 r  pca 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.