Розділ 3.5.2 в Елементах статистичного навчання є корисним, оскільки регрес PLS відповідає правильному контексту (для інших методів регуляризації), але насправді дуже короткий і залишає деякі важливі твердження як вправи. Крім того, він розглядає лише випадок одновимірної залежної змінної y .
Література про PLS обширна, але може бути дуже заплутаною, оскільки існує безліч різних "ароматів" PLS: одноманітні версії з єдиним DV y (PLS1) та багатоваріантні версії з декількома DV Y (PLS2), симетричні версії трактуючи X та Y однаково та асиметричні версії ("PLS регресія"), що \ mathbf X розглядають Xяк незалежні та Y як залежні змінні, версії, які дозволяють глобальне рішення через SVD, та версії, що вимагають ітеративних дефляцій для створення кожного наступного пара напрямків PLS тощо тощо.
Все це було розроблено в галузі хіміометрії і залишається дещо відключеним від "основної" статистичної або машинної літератури.
Оглядовий документ, який я вважаю найбільш корисним (і який містить багато подальших посилань):
Для більш теоретичного обговорення я можу додатково порекомендувати:
Короткий праймер щодо регресії PLS з одновимірним (aka PLS1, він же SIMPLS)y
Метою регресії є оцінка в лінійній моделі . Рішення OLS користується багатьма властивостями оптимальності, але може страждати від надмірного розміщення. Дійсно, OLS шукає що дає максимально можливу кореляцію з . Якщо передбачувачів багато, то завжди можна знайти якусь лінійну комбінацію, яка має високу кореляцію з . Це буде хибною кореляцією, і така зазвичай вказуватиме в напрямку, що пояснює дуже малу дисперсію вβy=Xβ+ϵβ=(X⊤X)−1X⊤yβXβyyβX. Напрямки, що пояснюють дуже невелику дисперсію, часто є дуже "галасливими" напрямками. Якщо так, то, хоча OLS-рішення на тренувальних даних працює чудово, на тестуванні даних воно буде працювати набагато гірше.
Для запобігання перевитрати використовуються методи регуляризації, які по суті змушують вказувати на напрямки з великою дисперсією в (це також називається "усадка" ; див. Чому працює усадка? ). Одним із таких методів є головна компонентна регресія (ПЛР), яка просто відкидає всі напрямки з низькою дисперсією. Ще один (кращий) метод - регресія хребта, яка плавно карає напрями з низькою дисперсією. Ще один метод - PLS1.βXβ
PLS1 замінює ціль OLS - знайти яка максимально корелює ім'я альтернативною метою знайти з довжиною максимізація коваріації ім'я що знову ефективно скасовує напрями низької дисперсії.βcorr(Xβ,y)β∥β∥=1
cov(Xβ,y)∼corr(Xβ,y)⋅var(Xβ)−−−−−−−√,
Знайшовши таку (назвемо її ), виходить перший компонент PLS . Далі можна шукати другий (а потім третій і т. Д.) Компонент PLS, який має найбільшу можливу коваріацію з при обмеженні некорельованості з усіма попередніми компонентами. Це потрібно вирішувати ітераційно, оскільки не існує рішення закритої форми для всіх компонентів (напрямок першого компонента просто задаєтьсяββ1z1=Xβ1yβ1X⊤yнормалізується до одиничної довжини). Коли витягується потрібна кількість компонентів, регресія PLS відкидає оригінальні предиктори та використовує компоненти PLS як нові прогноктори; це дає деяку лінійну комбінацію їх яку можна комбінувати з усіма щоб утворити остаточний .βzβiβPLS
Зауважте, що:
- Якщо використовуються всі компоненти PLS1, то PLS буде еквівалентний OLS. Тож кількість компонентів служить параметром регуляризації: чим менше число, тим сильніше регуляризація.
- Якщо провісники НЕ корельовані і мають однакові дисперсії (тобто був забеленний ), тобто тільки один PLS1 компонент , і це еквівалентно МНК.XX
- Вагові вектори та для не будуть ортогональними, але дадуть некорельовані компоненти та .βiβji≠jzi=Xβizj=Xβj
Враховуючи це , я не знаю жодних практичних переваг регресії PLS1 перед регресією хребта (хоча останній має багато переваг: він є безперервним і не дискретним, має аналітичне рішення, набагато більш стандартний, дозволяє розширення ядра та аналітичний формули для помилок перехресної перевірки, які залишаються одноразовими, тощо, тощо).
Цитуючи від Франка та Фрідмана:
RR, PCR та PLS розглядаються в Розділі 3, щоб діяти аналогічно. Їх основна мета полягає в тому, щоб перенести вектор коефіцієнта розчину від розчину OLS до напрямків у просторі змінної прогностики для більшого поширення вибірки. Видно, що ПЛР та ПЛС значно сильніше стискаються від напрямків низького розповсюдження, ніж РР, що забезпечує оптимальну усадку (серед лінійних оцінювачів) для попереднього прямого напряму. Таким чином, ПЛР та ПЛС припускають, що правда, ймовірно, має особливі переважні вирівнювання з напрямками високого розповсюдження розподілу змінної предиктора (вибірки). Дещо дивовижним результатом є те, що PLS (крім того) розміщує збільшену масу ймовірності на справжньому векторі коефіцієнта, що вирівнюється з головним напрямком го компонента, деKK - кількість використовуваних компонентів PLS, які фактично розширюють рішення OLS у цьому напрямку.
Вони також проводять широке імітаційне дослідження та роблять висновок (моє наголос):
Для ситуацій, на які поширюється це симуляційне дослідження, можна зробити висновок, що всі зміщені методи (RR, PCR, PLS та VSS) забезпечують істотне вдосконалення порівняно з OLS. [...] У всіх ситуаціях RR домінував над усіма іншими вивченими методами. ПЛС зазвичай робили майже так само, як і RR, і зазвичай перевершували ПЛР, але не дуже.
Оновлення: У коментарях @cbeleites (який працює в хіміометрії) пропонує дві можливі переваги PLS над RR:
Аналітик може апріорно здогадуватися про те, скільки латентних компонентів має бути присутнім у даних; це ефективно дозволить встановити силу регуляризації, не роблячи перехресну перевірку (а може бути недостатньо даних, щоб зробити достовірне резюме). Такий апріорний вибір може бути більш проблематичним для RR.λ
RR дає одну єдину лінійну комбінацію як оптимальне рішення. На відміну від PLS, наприклад, з п'ятьма компонентами, виходить п'ять лінійних комбінацій , які потім об'єднуються для прогнозування . Оригінальні змінні, які сильно взаємопов'язані, швидше за все, будуть об'єднані в єдиний компонент PLS (оскільки об'єднання їх разом збільшить пояснений термін дисперсії). Таким чином, можливо, інтерпретувати окремі компоненти PLS можна як реальні приховані фактори, що впливають на . Твердження полягає в тому, що простіше інтерпретувати тощо, на відміну від спільногоβRRβiyyβ1,β2,βPLS. Порівняйте це з ПЛР, де також можна вважати перевагою те, що окремі основні компоненти потенційно можуть бути інтерпретовані та наділені деяким якісним значенням.