У мене є набір даних, для якого у мене є кілька наборів двійкових міток. Для кожного набору міток я готую класифікатор, оцінюючи його за допомогою перехресної перевірки. Я хочу зменшити розмірність за допомогою аналізу основних компонентів (PCA). Моє запитання:
Чи можливо зробити PCA один раз для всього набору даних, а потім використовувати новий набір даних меншої розмірності для перехресної перевірки, як описано вище? Або мені потрібно зробити окремий PCA для кожного навчального набору (що означатиме зробити окремий PCA для кожного класифікатора та для кожного перехресного перевірки)?
З одного боку, PCA не використовує етикетки. З іншого боку, він використовує дані тесту для трансформації, тому я боюся, що це може змістити результати.
Я мушу зазначити, що, крім того, щоб заощадити на деякій роботі, виконання PCA один раз для всього набору даних дозволило б мені візуалізувати набір даних для всіх наборів міток одночасно. Якщо у мене інший PCA для кожного набору міток, мені потрібно візуалізувати кожен набір міток окремо.
caret
пакетом: PCA та k-кратна перехресна перевірка в Caret .