Ми зазвичай використовуємо PCA як метод зменшення розмірності для даних, коли випадки вважаються ідентичними
Запитання: Які типові нюанси у застосуванні PCA для залежних від неідентифікованих даних? Які приємні / корисні властивості PCA, які зберігаються для даних iid, поставлені під загрозу (або повністю втрачені)?
Наприклад, дані можуть бути багатоваріантним часовим рядом, і в цьому випадку можна очікувати автокореляції або авторегресивної умовної гетерокедастичності (ARCH).
Раніше було задано декілька пов'язаних питань щодо застосування ПКС до даних часових рядів, наприклад, 1 , 2 , 3 , 4 , але я шукаю більш загальну та всебічну відповідь (без потреби багато розширювати кожну окрему точку).
Редагувати: Як зазначає @ttnphns, PCA сама по собі не є інфекційним аналізом. Однак, можна зацікавити результати узагальнення PCA, тобто зосередити увагу на популяційному аналозі вибірки PCA. Наприклад, як написано у Надлері (2008) :
Якщо припустити, що дані є кінцевою та випадковою вибіркою з (як правило, невідомого) розподілу, цікавим теоретичним та практичним питанням є співвідношення між результатами вибірки PCA, обчисленими з кінцевих даних, та тими, що лежать в основі основної моделі популяції.
Список літератури:
- Надлер, Боаз. "Результати кінцевого наближення вибірки для аналізу основних компонентів: матричний збурений підхід." Аналіз статистики (2008): 2791-2817.