Теорія за частковою регресією найменших квадратів

Чи може хтось порекомендувати гарне виклад теорії за частковою регресією найменших квадратів (доступна в Інтернеті) для тих, хто розуміє SVD та PCA? Я переглянув багато джерел в Інтернеті і не знайшов нічого, що мав би правильне поєднання суворості та доступності.

Я розглянув "Елементи статистичного навчання" , що було запропоновано в коментарі до запитання " Перевірена перевірка" , що таке часткова найменша квадратика (PLS) і чим вона відрізняється від OLS? , але я не вважаю, що ця посилання робить тему справедливою (це занадто коротко, щоб зробити це, і не дає великої теорії з цього приводу). З того, що я прочитав, PLS використовує лінійні комбінації змінних предиктора, які максимізують коваріацію умови обмежень і якщо , де $z_i=X \varphi_i$ $y^Tz_i$ $\|\varphi_i\|=1$ $z_i^Tz_j=0$ $i \neq j$ $\varphi_i$ вибираються ітераційно, у тому порядку, в якому вони максимально збільшують коваріацію. Але навіть після всього прочитаного я все ще не впевнений, чи це правда, і якщо так, то як виконується метод.

— кларпуль
джерело

Розділ 3.5.2 в Елементах статистичного навчання є корисним, оскільки регрес PLS відповідає правильному контексту (для інших методів регуляризації), але насправді дуже короткий і залишає деякі важливі твердження як вправи. Крім того, він розглядає лише випадок одновимірної залежної змінної $\mathbf y$ .

Література про PLS обширна, але може бути дуже заплутаною, оскільки існує безліч різних "ароматів" PLS: одноманітні версії з єдиним DV $\mathbf y$ (PLS1) та багатоваріантні версії з декількома DV $\mathbf Y$ (PLS2), симетричні версії трактуючи $\mathbf X$ та $\mathbf Y$ однаково та асиметричні версії ("PLS регресія"), що розглядають $\mathbf X$ як незалежні та $\mathbf Y$ як залежні змінні, версії, які дозволяють глобальне рішення через SVD, та версії, що вимагають ітеративних дефляцій для створення кожного наступного пара напрямків PLS тощо тощо.

Все це було розроблено в галузі хіміометрії і залишається дещо відключеним від "основної" статистичної або машинної літератури.

Оглядовий документ, який я вважаю найбільш корисним (і який містить багато подальших посилань):

Rosipal & Krämer, 2006, огляд та останні досягнення в частково менших квадратах

Для більш теоретичного обговорення я можу додатково порекомендувати:

Frank & Friedman, 1993, Статистичний вигляд деяких інструментів регресії хіміометрії

Короткий праймер щодо регресії PLS з одновимірним (aka PLS1, він же SIMPLS) $y$

Метою регресії є оцінка в лінійній моделі . Рішення OLS користується багатьма властивостями оптимальності, але може страждати від надмірного розміщення. Дійсно, OLS шукає що дає максимально можливу кореляцію з . Якщо передбачувачів багато, то завжди можна знайти якусь лінійну комбінацію, яка має високу кореляцію з . Це буде хибною кореляцією, і така зазвичай вказуватиме в напрямку, що пояснює дуже малу дисперсію в $\beta$ $y=X\beta + \epsilon$ $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ $\beta$ $\mathbf X \beta$ $\mathbf y$ $\mathbf y$ $\beta$ $\mathbf X$ . Напрямки, що пояснюють дуже невелику дисперсію, часто є дуже "галасливими" напрямками. Якщо так, то, хоча OLS-рішення на тренувальних даних працює чудово, на тестуванні даних воно буде працювати набагато гірше.

Для запобігання перевитрати використовуються методи регуляризації, які по суті змушують вказувати на напрямки з великою дисперсією в (це також називається "усадка" ; див. Чому працює усадка? ). Одним із таких методів є головна компонентна регресія (ПЛР), яка просто відкидає всі напрямки з низькою дисперсією. Ще один (кращий) метод - регресія хребта, яка плавно карає напрями з низькою дисперсією. Ще один метод - PLS1. $\beta$ $\mathbf X$ $\beta$

PLS1 замінює ціль OLS - знайти яка максимально корелює ім'я альтернативною метою знайти з довжиною максимізація коваріації ім'я що знову ефективно скасовує напрями низької дисперсії. $\beta$ $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ $\beta$ $\|\beta\|=1$

cov (X β, y) \sim corr (X β, y) \cdot \sqrt{var (X β)},

$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$

Знайшовши таку (назвемо її ), виходить перший компонент PLS . Далі можна шукати другий (а потім третій і т. Д.) Компонент PLS, який має найбільшу можливу коваріацію з при обмеженні некорельованості з усіма попередніми компонентами. Це потрібно вирішувати ітераційно, оскільки не існує рішення закритої форми для всіх компонентів (напрямок першого компонента просто задається $\beta$ $\beta_1$ $\mathbf z_1 = \mathbf X \beta_1$ $\mathbf y$ $\beta_1$ $\mathbf X^\top \mathbf y$ нормалізується до одиничної довжини). Коли витягується потрібна кількість компонентів, регресія PLS відкидає оригінальні предиктори та використовує компоненти PLS як нові прогноктори; це дає деяку лінійну комбінацію їх яку можна комбінувати з усіма щоб утворити остаточний . $\beta_z$ $\beta_i$ $\beta_\mathrm{PLS}$

Зауважте, що:

Якщо використовуються всі компоненти PLS1, то PLS буде еквівалентний OLS. Тож кількість компонентів служить параметром регуляризації: чим менше число, тим сильніше регуляризація.
Якщо провісники НЕ корельовані і мають однакові дисперсії (тобто був забеленний ), тобто тільки один PLS1 компонент , і це еквівалентно МНК. $\mathbf X$ $\mathbf X$
Вагові вектори та для не будуть ортогональними, але дадуть некорельовані компоненти та . $\beta_i$ $\beta_j$ $i\ne j$ $\mathbf z_i=\mathbf X \beta_i$ $\mathbf z_j=\mathbf X \beta_j$

Враховуючи це , я не знаю жодних практичних переваг регресії PLS1 перед регресією хребта (хоча останній має багато переваг: він є безперервним і не дискретним, має аналітичне рішення, набагато більш стандартний, дозволяє розширення ядра та аналітичний формули для помилок перехресної перевірки, які залишаються одноразовими, тощо, тощо).

Цитуючи від Франка та Фрідмана:

RR, PCR та PLS розглядаються в Розділі 3, щоб діяти аналогічно. Їх основна мета полягає в тому, щоб перенести вектор коефіцієнта розчину від розчину OLS до напрямків у просторі змінної прогностики для більшого поширення вибірки. Видно, що ПЛР та ПЛС значно сильніше стискаються від напрямків низького розповсюдження, ніж РР, що забезпечує оптимальну усадку (серед лінійних оцінювачів) для попереднього прямого напряму. Таким чином, ПЛР та ПЛС припускають, що правда, ймовірно, має особливі переважні вирівнювання з напрямками високого розповсюдження розподілу змінної предиктора (вибірки). Дещо дивовижним результатом є те, що PLS (крім того) розміщує збільшену масу ймовірності на справжньому векторі коефіцієнта, що вирівнюється з головним напрямком го компонента, де $K$ $K$ - кількість використовуваних компонентів PLS, які фактично розширюють рішення OLS у цьому напрямку.

Вони також проводять широке імітаційне дослідження та роблять висновок (моє наголос):

Для ситуацій, на які поширюється це симуляційне дослідження, можна зробити висновок, що всі зміщені методи (RR, PCR, PLS та VSS) забезпечують істотне вдосконалення порівняно з OLS. [...] У всіх ситуаціях RR домінував над усіма іншими вивченими методами. ПЛС зазвичай робили майже так само, як і RR, і зазвичай перевершували ПЛР, але не дуже.

Оновлення: У коментарях @cbeleites (який працює в хіміометрії) пропонує дві можливі переваги PLS над RR:

Аналітик може апріорно здогадуватися про те, скільки латентних компонентів має бути присутнім у даних; це ефективно дозволить встановити силу регуляризації, не роблячи перехресну перевірку (а може бути недостатньо даних, щоб зробити достовірне резюме). Такий апріорний вибір може бути більш проблематичним для RR. $\lambda$
RR дає одну єдину лінійну комбінацію як оптимальне рішення. На відміну від PLS, наприклад, з п'ятьма компонентами, виходить п'ять лінійних комбінацій , які потім об'єднуються для прогнозування . Оригінальні змінні, які сильно взаємопов'язані, швидше за все, будуть об'єднані в єдиний компонент PLS (оскільки об'єднання їх разом збільшить пояснений термін дисперсії). Таким чином, можливо, інтерпретувати окремі компоненти PLS можна як реальні приховані фактори, що впливають на . Твердження полягає в тому, що простіше інтерпретувати тощо, на відміну від спільного $\beta_\mathrm{RR}$ $\beta_i$ $y$ $y$ $\beta_1, \beta_2,$ $\beta_\mathrm{PLS}$ . Порівняйте це з ПЛР, де також можна вважати перевагою те, що окремі основні компоненти потенційно можуть бути інтерпретовані та наділені деяким якісним значенням.

— Амеба каже Відновити Моніку
джерело

Цей папір виглядає корисною. Я не думаю, що це стосується того, наскільки перевиконання може спричинити PLS.

— Френк Харрелл

Це правильно, @Frank, але якщо чесно, що стосується прогнозування, я не бачу особливого сенсу робити щось інше, ніж регресію хребта (або, можливо, еластичну сітку, якщо бажано також спарити). Мій власний інтерес до PLS полягає в аспекті зменшення розмірності, коли і і є багатоваріантними; тому мене не дуже цікавить, як PLS виконує функцію регуляризації (порівняно з іншими методами регуляризації). Коли у мене є лінійна модель, яку мені потрібно регулювати, я вважаю за краще використовувати хребет. Цікаво, який у вас тут досвід?

X

$X$

Y

$Y$

— Амеба каже: Відновити Моніку

Мій досвід полягає в тому, що хребет (квадратичне покарання максимальної ймовірності) дає чудові прогнози. Я думаю, що деякі аналітики вважають, що ПЛС - це техніка зменшення розмірності, щоб уникнути перевитрати, але я вважаю, що це не так.

— Френк Харрелл

б) якщо ви збираєтесь, скажімо, спектроскопічно інтерпретувати те, що робить модель, мені легше подивитися на навантаження PLS, які речовини вимірюються. Ви можете знайти там один або два класи речовини / речовини, оскільки коефіцієнти, що включають усі приховані змінні, важче інтерпретувати, оскільки спектральний внесок більшої кількості речовин поєднується. Це більш помітно, оскільки застосовуються не всі звичні правила спектральної інтерпретації: модель PLS може вибирати деякі смуги речовини, ігноруючи інші. "Нормальна" інтерпретація спектрів використовує багато, що ця смуга могла б ...

— cbeleites підтримує Моніку

... походять від тієї чи іншої речовини. Якщо це ця речовина, то повинна бути й інша смуга. Оскільки ця остання можливість перевірити речовину неможливо за допомогою прихованих змінних / навантажень / коефіцієнтів, інтерпретувати речі, які різняться разом і тому опиняються в одній і тій же прихованій змінній, набагато простіше, ніж інтерпретувати коефіцієнти, які вже узагальнюють усі види можливих "підказок ", які відомі моделлю.

— cbeleites підтримує Моніку

Так. Книга Германа Волда « Теоретичний емпіризм: загальне обґрунтування наукового побудови моделей - це найкраща експозиція PLS, яку я знаю, особливо з огляду на те, що Уолд є джерелом підходу. Не кажучи вже про те, що це просто цікава книга, яку читати і знати. Крім того, спираючись на пошук на Amazon, кількість посилань на книги на PLS, написані німецькою мовою, дивує, але можливо, що підзаголовок книги Волда є частиною причини цього.

— Майк Хантер
джерело

Цей amazon.com/Towards-Unified-Scientist-Models-Methods/dp/… пов'язаний, але охоплює набагато більше, ніж PLS

— kjetil b halvorsen

Це правда, але головним напрямком книги є розробка теорії та застосування ПЛС Уолда.

— Майк Хантер

Теорія за частковою регресією найменших квадратів

Короткий праймер щодо регресії PLS з одновимірним (aka PLS1, він же SIMPLS)yyy

Короткий праймер щодо регресії PLS з одновимірним (aka PLS1, він же SIMPLS) $y$