У мене є кілька швидких питань щодо PCA:
- Чи вважає PCA, що набір даних є гауссовим?
- Що трапляється, коли я застосовую PCA до властивих нелінійних даних?
Враховуючи набір даних, процес спочатку повинен середньо-нормалізувати, встановити дисперсію на 1, взяти SVD, зменшити ранг і, нарешті, зіставити набір даних у новий простір зі зменшеним рангом. У новому просторі кожному виміру відповідає "напрямок" максимальної дисперсії.
- Але чи завжди співвідношення цього набору даних у новому просторі дорівнює нулю, чи це справедливо лише для даних, які є властивими Гауссу?
Припустимо, у мене є два набори даних, "A" і "B", де "A" відповідає випадково відібраним точкам, узятим у Гаусса, тоді як "B" відповідає точкам, випадковим чином відібраним з іншого розподілу (скажімо, Пуассон).
- Як PCA (A) порівнюється з PCA (B)?
- Дивлячись на точки в новому просторі, як би я визначив, що PCA (A) відповідає точкам, відібраним у Гаусса, тоді як PCA (B) відповідає точкам, відібраним з Пуассона?
- Чи відповідає кореляція точок у "А" 0?
- Чи також кореляція балів у "В" також 0?
- Що ще важливіше, я задаю "правильне" питання?
- Чи варто дивитись на співвідношення, чи є інший показник, який я повинен розглянути?