Окрім відповідей, які вже зосереджені на математичних властивостях, я хотів би прокоментувати з експериментальної точки зору.
Короткий зміст: Процеси генерації даних часто оптимізуються таким чином, щоб зробити дані придатними для регресії основного компонента (ПЛР) або часткового найменшого квадрату (PLS).
Я хімік-аналітик. Коли я розробляю експеримент / метод для вимірювання (регресії чи класифікації) чогось, я використовую свої знання щодо застосування та доступних інструментів, щоб отримати дані, які мають хороше співвідношення сигнал / шум стосовно даного завдання. Це означає, що дані, які я генерую, покликані мати велику коваріацію зі властивістю, що цікавить.
Це призводить до дисперсійної структури, де цікава дисперсія велика, а більш пізні ПК будуть носити лише (малий) шум.
Я також віддаю перевагу методам, які дають зайву інформацію про завдання, щоб отримати більш надійні або точні результати. PCA концентрує надлишкові канали вимірювання в одному ПК, який потім несе велику дисперсію і тому є одним з перших ПК.
Якщо є відомі плутанини, які призведуть до великої дисперсії, яка не співвідноситься із властивістю, що цікавить, я зазвичай намагаюся виправити їх якомога більше під час попередньої обробки даних: у багатьох випадках ці конфузери відомі фізичної чи хімічної природи, і ці знання підказують відповідні способи виправлення для плутанини. Наприклад, я вимірюю спектри Рамана під мікроскопом. Їх інтенсивність залежить від інтенсивності лазерного світла, а також від того, наскільки добре я можу фокусувати мікроскоп. Обидва призводять до змін, які можна виправити, нормалізуючи, наприклад, сигнал, який, як відомо, є постійним.
Таким чином, великі учасники дисперсії, які не сприяють вирішенню, можуть бути усунені до введення даних у ПКС, залишаючи в основному значущі дисперсії на перших ПК.
І останнє, але не менш важливе, тут є трохи самореалізуючого пророцтва: Очевидно, що ПЛР робиться з даними, де припущення про величину дисперсії інформації має велике значення. Якщо, наприклад, я думаю, що можуть виникнути важливі плутанини, які я не знаю, як виправити, я б негайно пішов на PLS, що краще ігнорувати великі внески, які не допомагають із завданням прогнозування.