Ви не вибираєте підмножину своїх оригінальних 99 (100-1) змінних.
Кожен з основних компонентів є лінійними комбінаціями всіх 99 змінних предиктора (x-змінні, IV, ...). Якщо ви використовуєте перші 40 основних компонентів, кожен з них є функцією всіх 99 оригінальних прогнозних змінних. (Принаймні, із звичайною PCA - існують розріджені / регульовані версії, такі як SPCA Zou, Hastie і Tibshirani, які дають компоненти на основі меншої кількості змінних.)
Розглянемо простий випадок двох позитивно корельованих змінних, які для простоти будемо вважати однаково змінними. Тоді перший головний компонент буде (дробовим) кратним сумою обох змінних, а другий буде (дробовим) кратним різниці двох змінних; якщо обидва не є однаково змінними, перший головний компонент буде важити більш змінну один значно більше, але він все одно буде включати обидва.
Отже, ви починаєте зі своїх 99 x-змінних, з яких ви обчислюєте свої 40 основних компонентів, застосовуючи відповідні ваги на кожну з оригінальних змінних. [Примітка. У своєму обговоренні я припускаю, що і вже по центру.]yX
Потім ви використовуєте свої 40 нових змінних так, як ніби вони були власними передбачувачами, так само, як і при будь-якій проблемі множинної регресії. (На практиці існують більш ефективні способи отримання оцінок, але давайте залишимо осторонь обчислювальних питань і просто розберемося з базовою ідеєю)
Що стосується вашого другого питання, то незрозуміло, що ви маєте на увазі під "поверненням PCA".
Ваші ПК - це лінійні комбінації вихідних змінних. Скажімо, ваші вихідні змінні знаходяться в , і ви обчислюєте (де - а - матриця яка містить основні ваги компонентів для компонентів, які ви використовуєте), тоді ви оцінка за допомогою регресії.XZ=XWXn×99W99×4040y^=Zβ^PC
Тоді ви можете написати сказати (де , очевидно), тож ви можете записати це як функцію оригінальних прогнозів; Я не знаю , якщо це те, що ви маєте в виду під «заднім ходом», але це осмислено поглянути на початкові взаємини між і . Це не те саме, що коефіцієнти, які ви отримуєте, оцінюючи регресію на оригінальному X-курсі, звичайно - це регулюється за допомогою PCA; незважаючи на те, що ви отримаєте коефіцієнти для кожного свого оригінального X таким чином, вони мають лише df тієї кількості компонентів, яку ви встановили.y^=Zβ^PC=XWβ^PC=Xβ^∗β^∗=Wβ^PCyX
Також дивіться Вікіпедію щодо регресії основних компонентів .