Запитання з тегом «pca»

Аналіз основних компонентів (PCA) - це метод лінійного зменшення розмірності. Це зводить багатоваріантний набір даних до меншого набору побудованих змінних, зберігаючи якомога більше інформації (стільки варіацій). Ці змінні, які називаються основними компонентами, є лінійними комбінаціями вхідних змінних.

1
PCA, LDA, CCA та PLS
Як пов’язані PCA, LDA, CCA та PLS? Всі вони здаються "спектральними" та лінійними алгебраїчними і дуже добре зрозумілими (скажімо, 50+ років теорії, побудованої навколо них). Вони використовуються для дуже різних речей (PCA для зменшення розмірності, LDA для класифікації, PLS для регресії), але вони все ще відчувають себе дуже тісно пов'язаними.

3
Інтерпретація регуляризації хребта в регресії
У мене є кілька запитань щодо каймового штрафу в контексті найменших квадратів: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Вираз говорить про те, що матриця коваріації X скорочується до діагональної матриці, тобто, якщо припустити, що змінні стандартизовані перед процедурою, кореляція між вхідними змінними буде знижена. Чи правильне це тлумачення? 2) …

5
Як найважливіші основні компоненти можуть утримати силу прогнозування залежної змінної (або навіть призвести до кращих прогнозів)?
Припустимо , що я біжу регресію Y∼XY∼XY \sim X . Чому, вибираючи компоненти kkk принципу XXX , модель зберігає свою прогнозовану потужність на YYY ? Я розумію , що з розмірністю-відновлювальних / функція відбору точки зору, якщо v1,v2,...vkv1,v2,...vkv_1, v_2, ... v_k - власні вектори матриці коваріації з верхніми власними значеннями, …

2
Чи є сенс поєднувати PCA та LDA?
Припустимо, у мене є набір даних для контрольованої статистичної задачі класифікації, наприклад, через класифікатор Байєса. Цей набір даних складається з 20 функцій, і я хочу звести його до двох функцій за допомогою методів зменшення розмірності, таких як аналіз основних компонентів (PCA) та / або лінійний дискримінантний аналіз (LDA). Обидві методи …

2
Як використовувати результати R prcomp для прогнозування?
У мене є data.frame з 800 об. з 40 змінних, і я хотів би використати Принциповий аналіз компонентів для покращення результатів мого прогнозування (який поки що найкраще працює з підтримкою Vector Machine на деяких 15-ти змінених вручну змінах). Я розумію, що prcomp може допомогти мені покращити мої прогнози, але я …
25 r  pca 

3
LSA проти PCA (кластеризація документів)
Я досліджую різні методи, що використовуються в кластеризації документів, і я хотів би усунути деякі сумніви щодо PCA (аналіз основних компонентів) та LSA (латентний семантичний аналіз). Перше - які відмінності між ними? Я знаю, що в PCA розкладання SVD застосовується до терміна-коваріаційної матриці, тоді як в LSA - матриця терміна-документа. …

2
Чи PCA нестабільний при мультиколінеарності?
Я знаю, що в регресійній ситуації, якщо у вас є набір сильно корельованих змінних, це зазвичай "погано" через нестабільність оцінених коефіцієнтів (дисперсія йде в бік нескінченності, оскільки детермінанта йде до нуля). Моє запитання - чи зберігається ця «поганість» у ситуації з УПС. Чи стають коефіцієнти / навантаження / ваги / …

5
Приклади PCA, де ПК з низькою дисперсією є "корисними"
Зазвичай при аналізі основних компонентів (PCA) використовуються перші кілька ПК, а ПК з низькою дисперсією відпадає, оскільки вони не пояснюють великої кількості варіацій даних. Однак, чи є приклади, коли ПК з низькою варіацією корисний (тобто використовують у контексті даних, мають інтуїтивне пояснення тощо) і їх не слід викидати?
24 pca 

2
Як зрозуміти "нелінійне" як "нелінійне зменшення розмірності"?
Я намагаюся зрозуміти відмінності між методами зменшення лінійної розмірності (наприклад, PCA) та нелінійними (наприклад, Isomap). Я не можу повністю зрозуміти, що означає (не) лінійність у цьому контексті. Я прочитав з Вікіпедії це Для порівняння, якщо PCA (алгоритм зменшення лінійних розмірностей) використовується для зменшення цього ж набору даних на два виміри, …

3
Наскільки саме рідкий PCA кращий за PCA?
Я дізнався про PCA кілька лекцій тому на уроці, і, переконуючись більше про цю захоплюючу концепцію, я дізнався про рідкісний PCA. Мені хотілося запитати, чи не помиляюсь, це таке рідкісне PCA: У PCA, якщо у вас є точок даних із змінними, ви можете представляти кожну точку даних у розмірному просторі …

1
Властивості PCA для залежних спостережень
Ми зазвичай використовуємо PCA як метод зменшення розмірності для даних, коли випадки вважаються ідентичними Запитання: Які типові нюанси у застосуванні PCA для залежних від неідентифікованих даних? Які приємні / корисні властивості PCA, які зберігаються для даних iid, поставлені під загрозу (або повністю втрачені)? Наприклад, дані можуть бути багатоваріантним часовим рядом, …

2
Чим відрізняється PCA від асимптотичного PCA?
У двох роботах у 1986 та 1988 роках Коннор та Корайчик запропонували підхід до моделювання прибутку активів. Оскільки в цих часових рядах зазвичай є більше активів, ніж спостереження за часовий період, вони запропонували виконати PCA на поперечному перерізі коефіцієнтів повернення активів. Цей метод вони називають асимптотичним аналізом основних компонентів (APCA, …
23 pca  econometrics 

4
Імпутація пропущених значень для PCA
Я використовував цю prcomp()функцію для виконання PCA (аналіз основних компонентів) в Р. Однак у цій функції є помилка, така що na.actionпараметр не працює. Я попросив допомоги щодо stackoverflow ; двоє користувачів там запропонували два різні способи поводження з NAцінностями. Однак проблема обох рішень полягає в тому, що коли є NAзначення, …

1
Чому існують лише основних компонентів для даних, якщо кількість вимірів ?
У PCA, коли кількість розмірів більша (або навіть дорівнює) кількості зразків , чому саме у вас буде не більше власних векторів ? Іншими словами, ранг коваріаційної матриці серед розмірів - .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Приклад: ваші зразки - це векторизовані зображення розміром , але у вас лише зображень.d=640×480=307200d=640×480=307200d = 640\times480 = 307\,200N=10N=10N=10

2
Чому PCA даних за допомогою SVD даних?
Це питання стосується ефективного способу обчислення основних компонентів. Багато текстів на лінійній PCA пропонують використовувати сингулярне розкладання значення випадкових даних . Тобто, якщо ми маємо дані і хочемо замінити змінні (її стовпці ) основними компонентами, ми робимо SVD: , сингулярні значення (квадратні корені власних значень), що займають основну діагональ , …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.