Наскільки саме рідкий PCA кращий за PCA?


24

Я дізнався про PCA кілька лекцій тому на уроці, і, переконуючись більше про цю захоплюючу концепцію, я дізнався про рідкісний PCA.

Мені хотілося запитати, чи не помиляюсь, це таке рідкісне PCA: У PCA, якщо у вас є точок даних із змінними, ви можете представляти кожну точку даних у розмірному просторі перед застосуванням PCA. Після застосування PCA ви можете знову представити його в тому ж розмірному просторі, але, на цей раз, перший головний компонент буде містити найбільшу дисперсію, другий буде містити другий самий дисперсійний напрямок тощо. Таким чином, ви можете усунути останні кілька основних компонентів, оскільки вони не спричинять багато втрат даних, і ви можете стиснути дані. Правильно?нпpp

Рідкий PCA вибирає основні компоненти таким чином, щоб ці компоненти містили менше ненульових значень у своїх векторних коефіцієнтах.

Як це має допомогти вам краще інтерпретувати дані? Хтось може навести приклад?


Привіт @GrowinMan! Ви бачили мою відповідь на це запитання? Як ви думаєте, це відповідає на це? Якщо ні, не соромтеся запитати будь-які пояснення або, можливо, подумайте про редагування свого питання, щоб зробити його більш точним. Якщо так, то подумайте про прийняття та "прийняття", натиснувши зелену галочку поруч. Я помітив, що ви маєте нульові голоси та нуль прийнятих ниток тут на CrossValidated.
амеба каже, що повернеться Моніка

@amoeba Дякую, що вказали на це. Я не входив деякий час, і я також трохи не зв’язаний з машинним навчанням. Я обов'язково прочитаю Вашу відповідь ще раз і відзначте відповіді тут до вихідних
GrowinMan

Без проблем. Я випадково натрапив на цю стару нитку і подумав перекинути вам рядок.
Амеба каже: Відновити Моніку

Привіт @GrowinMan! :-) Знову перейшов через цю стару нитку. Якщо ви все ще вважаєте, що це питання є невирішеним, не соромтеся запитати роз'яснення. В іншому випадку розгляньте можливість підтвердження та "прийняття" однієї з відповідей, натиснувши зелену галочку поруч. Я помітив, що ви маєте нульові голоси та нуль прийнятих ниток тут на CrossValidated.
Амеба каже: Відновити Моніку

Відповіді:


29

Незалежно від того, чи розріджений PCA простіше інтерпретувати, ніж стандартний PCA, чи ні, залежить від набору даних, який ви досліджуєте. Ось як я думаю про це: іноді більше цікавляться проекціями PCA (маломірне представлення даних), а іноді - основними осями; лише в останньому випадку рідкісний PCA може мати будь-які переваги для тлумачення. Дозвольте навести пару прикладів.

Наприклад, я працюю з нейронними даними (одночасні записи багатьох нейронів) і застосовую PCA та / або пов'язані з ними методи зменшення розмірності, щоб отримати низькомірне представлення активності нейронної популяції. У мене може бути 1000 нейронів (тобто мої дані живуть в 1000-мірному просторі) і хочу проектувати їх на три провідні основні осі. Що це за осі, для мене абсолютно не має значення, і я не маю наміру жодним чином "інтерпретувати" ці осі. Мене цікавить 3D-проекція (оскільки активність залежить від часу, я отримую траєкторію в цьому 3D-просторі). Тож я добре, якщо кожна вісь має всі 1000 ненульових коефіцієнтів.

З іншого боку, хтось може працювати з більш "відчутними" даними, де окремі розміри мають очевидний сенс (на відміну від окремих нейронів вище). Наприклад, набір даних про різні автомобілі, де розміри - від ваги до ціни. У цьому випадку насправді можуть бути зацікавлені самі провідні головні осі, тому що можна сказати щось: дивіться, перша головна вісь відповідає «вигадливості» автомобіля (я це зараз повністю складаю). Якщо проекція є рідкою, такі інтерпретації, як правило, простіше дати, оскільки багато змінних матимуть коефіцієнти і тому явно не мають значення для даної осі. У випадку стандартної PCA зазвичай отримують ненульові коефіцієнти для всіх змінних.0

Ви можете знайти більше прикладів та деяке обговорення останньої справи у документі Sparse PCA 2006 року від Zou et al. Різницю між першим та останнім випадком я явно не бачив, де явно обговорювався десь (хоча це, мабуть, було).


3
Це було чудовим поясненням. Іншим прикладом ваших "відчутних" даних буде опитування з багатьма питаннями, і ви хочете знати, які питання в опитуванні є найбільш важливими, і, можливо, якесь поєднання їх насправді задає одна тема.
bdeonovic

1

Таким чином, ви можете усунути останні кілька основних компонентів, оскільки вони не спричинять багато втрат даних, і ви можете стиснути дані. Правильно?

NV1,V2,,VNNПС1,ПС2,,ПСNViПСi

ПСiVj,Vл,

(ПСi,ПСj)N


Як !? Я не бачу, як було б легко провести інтерпретацію в цьому випадку на відміну від того, коли основні компоненти не є рідкими.
GrowinMan

2
Як я думаю про це, ми часто робимо кластеризацію змінних перед ПК, щоб зробити результати більш зрозумілими. Рідкий ПК поєднує змінну кластеризацію і ПК в один крок, вимагаючи меншої кількості рішень з боку аналітика.
Френк Харрелл

1

Щоб зрозуміти переваги розрідженості в PCA, вам потрібно переконатися, що ви знаєте різницю між "завантаженнями" та "змінними" (для мене ці назви дещо довільні, але це не важливо).

Скажімо, у вас є матриця даних nxp X , де n - кількість зразків. SVD X = USV ' , дає три матриці. Поєднання перших двох Z = US дає вам матрицю основних компонентів. Скажімо, ваш зменшений ранг k , тоді Z - nxk . Z по суті - це ваша матриця даних після зменшення розмірів. Історично,

Записи ваших основних компонентів (aka Z = US ) називаються змінними.

З іншого боку, V (що є pxk ) містить основні вектори завантаження, і його записи називаються основними навантаженнями. З огляду на властивості PCA, легко показати, що Z = XV . Це означає що:

Основні компоненти є похідним, використовуючи основні навантаження в якості коефіцієнтів в лінійної комбінації вашої матриці даних X .

Тепер, коли ці визначення не виходять з ладу, ми розглянемо розрізненість. Більшість паперів (або, принаймні, більшість, з якими я стикався), забезпечують рідкість основних завантажень (також V ). Перевага рідкості полягає в тому, що

розріджений V підкаже, які змінні (з оригінального p -вимірного простору функцій) варто зберігати. Це називається інтерпретацією.

Існують також інтерпретації для зменшення обмеженості в записах Z , які я бачив, як люди називають "рідкісна змінна PCA" ", але це набагато менш популярно, і якщо чесно, я не думав про це так сильно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.