Я натрапив на сценарій, коли у мене є 10 сигналів / людина на 10 осіб (тобто 100 зразків), що містять 14000 точок даних (розмірів), які мені потрібно передати класифікатору. Я хотів би зменшити розмірність цих даних, і PCA, здається, є способом зробити це. Однак мені вдалося знайти лише приклади PCA, де кількість зразків перевищує кількість розмірів. Я використовую програму PCA, яка знаходить ПК за допомогою SVD. Коли я передаю це мій набір даних 100x14000, повертається 101 ПК, тому переважна більшість розмірів очевидно ігнорується. Програма вказує, що перші 6 ПК містять 90% дисперсії.
Чи обґрунтовано припущення, що ці 101 ПК містять по суті всю дисперсію, а решта розмірів нехтують?
Один з робіт, які я читав, стверджує, що, використовуючи схожий (хоча і трохи нижчий за якістю) набір даних, ніж мій власний, вони змогли зменшити 4500 розмірів до 80, зберігаючи 96% початкової інформації. Паперові ручні хвилі над деталями використовуваної методики PCA були доступні лише 3100 зразків, і я маю підстави вважати менше зразків, ніж було використано для фактичного виконання PCA (для усунення зміщення з фази класифікації).
Чи щось мені не вистачає, чи це справді спосіб використання PCA з набором даних з високою розмірністю вибірки? Будь-який відгук буде дуже вдячний.