Які хороші показники для оцінки якості підходу до PCA, щоб вибрати кількість компонентів?


10

Яка хороша метрика для оцінки якості аналізу основних компонентів (PCA)?

Я виконував цей алгоритм на наборі даних. Моєю метою було зменшити кількість функцій (інформація була дуже зайвою). Я знаю, відсоток збереженої дисперсії є хорошим показником того, скільки інформації ми зберігаємо, чи є інші інформаційні метрики, якими я можу скористатися, щоб видалити зайву інформацію та не "втратив" таку інформацію?


3
Строго кажучи, немає "зайвої" інформації, якщо тільки ваші вихідні дані не були ідеально колінеарними. Зазвичай видно збережений відсоток дисперсії ("ми використовували перші п’ять основних компонентів, на які припадало 90% дисперсії"). Мені цікаво бачити альтернативи.
Стефан Коласа

Оскільки одним із ваших тегів є теорія інформації: непрямим способом оцінки того, чи працює PCA, є перевірка припущень, згідно з якими теорія інформації говорить нам, що вона має низькі втрати інформації для зменшення розміру. Wiki каже, що це так, коли ваші дані - це сума гауссового сигналу плюс гаусовий шум. en.wikipedia.org/wiki/…
CloseToC

Відповіді:


17

Я припускаю, що частина цього питання полягає в тому, чи існують інші показники, крім кумулятивної відсоткової дисперсії (CPV) та аналогічного підходу сюжетного опису. Відповідь на це - так, багато .

Чудовий документ про деякі варіанти - Валле 1999:

Це стосується CPV, але також паралельного аналізу, перехресної перевірки, варіації помилки відновлення (VRE), методів, заснованих на інформаційних критеріях та ін. Ви можете дотримуватися рекомендацій, викладених у статті після порівняння та використання VRE, але перехресне підтвердження на основі PRESS також добре працює, на мій досвід, і вони отримують хороші результати і з цим. На мій досвід, CPV - це зручно і просто і робить гідну роботу, але ці два способи, як правило, краще.

Є й інші способи оцінити, наскільки хороша ваша модель PCA, якщо ви знаєте більше про дані. Один із способів - порівняти передбачувані навантаження PCA з справжніми, якщо ви їх знаєте (що б ви зробили при моделюванні). Це можна зробити, обчисливши зміщення розрахункових навантажень до справжніх. Чим більший ваш ухил, тим гірше ваша модель. Як це зробити, ви можете ознайомитись з цією статтею, де вони використовують цей підхід для порівняння методів. Він не використовується в реальних випадках, хоча ви не знаєте справжніх завантажень PCA. Це менше говорить про те, скільки компонентів ви вилучили, ніж про упередженість вашої моделі через вплив сторонніх спостережень, але вона все ще служить показником якості моделі.



3

Існують також заходи, засновані на інформаційно-теоретичних критеріях

MDL Rissanen (та його варіанти)


@user: 45382 Так, це ще один. Це також зачіпається у статті, на яку Жубарб посилається.
Deathkill14

@ Deathkill14 правильно я читаю статтю, згадуються інформаційно-теоретичні заходи (насправді як хороші альтернативи)
Нікос М.

Відмінна теоретична робота про MDL, MML та байесіанство: Vitany & Li, Ideal MDL та її відношення до байесіанства citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Також інші методи вибору моделі, такі як AIC та BIC, є ефективною реалізацією MDL.
ggll
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.