Теорія за частковою регресією найменших квадратів


33

Чи може хтось порекомендувати гарне виклад теорії за частковою регресією найменших квадратів (доступна в Інтернеті) для тих, хто розуміє SVD та PCA? Я переглянув багато джерел в Інтернеті і не знайшов нічого, що мав би правильне поєднання суворості та доступності.

Я розглянув "Елементи статистичного навчання" , що було запропоновано в коментарі до запитання " Перевірена перевірка" , що таке часткова найменша квадратика (PLS) і чим вона відрізняється від OLS? , але я не вважаю, що ця посилання робить тему справедливою (це занадто коротко, щоб зробити це, і не дає великої теорії з цього приводу). З того, що я прочитав, PLS використовує лінійні комбінації змінних предиктора, які максимізують коваріацію умови обмежень і z_i ^ Tz_j = 0, якщо i \ neq j , де \ varphi_izi=XφiyTziφi=1ziTzj=0ijφiвибираються ітераційно, у тому порядку, в якому вони максимально збільшують коваріацію. Але навіть після всього прочитаного я все ще не впевнений, чи це правда, і якщо так, то як виконується метод.

Відповіді:


38

Розділ 3.5.2 в Елементах статистичного навчання є корисним, оскільки регрес PLS відповідає правильному контексту (для інших методів регуляризації), але насправді дуже короткий і залишає деякі важливі твердження як вправи. Крім того, він розглядає лише випадок одновимірної залежної змінної y .

Література про PLS обширна, але може бути дуже заплутаною, оскільки існує безліч різних "ароматів" PLS: одноманітні версії з єдиним DV y (PLS1) та багатоваріантні версії з декількома DV Y (PLS2), симетричні версії трактуючи X та Y однаково та асиметричні версії ("PLS регресія"), що \ mathbf X розглядають Xяк незалежні та Y як залежні змінні, версії, які дозволяють глобальне рішення через SVD, та версії, що вимагають ітеративних дефляцій для створення кожного наступного пара напрямків PLS тощо тощо.

Все це було розроблено в галузі хіміометрії і залишається дещо відключеним від "основної" статистичної або машинної літератури.

Оглядовий документ, який я вважаю найбільш корисним (і який містить багато подальших посилань):

Для більш теоретичного обговорення я можу додатково порекомендувати:


Короткий праймер щодо регресії PLS з одновимірним (aka PLS1, він же SIMPLS)y

Метою регресії є оцінка в лінійній моделі . Рішення OLS користується багатьма властивостями оптимальності, але може страждати від надмірного розміщення. Дійсно, OLS шукає що дає максимально можливу кореляцію з . Якщо передбачувачів багато, то завжди можна знайти якусь лінійну комбінацію, яка має високу кореляцію з . Це буде хибною кореляцією, і така зазвичай вказуватиме в напрямку, що пояснює дуже малу дисперсію вβy=Xβ+ϵβ=(XX)1XyβXβyyβX. Напрямки, що пояснюють дуже невелику дисперсію, часто є дуже "галасливими" напрямками. Якщо так, то, хоча OLS-рішення на тренувальних даних працює чудово, на тестуванні даних воно буде працювати набагато гірше.

Для запобігання перевитрати використовуються методи регуляризації, які по суті змушують вказувати на напрямки з великою дисперсією в (це також називається "усадка" ; див. Чому працює усадка? ). Одним із таких методів є головна компонентна регресія (ПЛР), яка просто відкидає всі напрямки з низькою дисперсією. Ще один (кращий) метод - регресія хребта, яка плавно карає напрями з низькою дисперсією. Ще один метод - PLS1.βXβ

PLS1 замінює ціль OLS - знайти яка максимально корелює ім'я альтернативною метою знайти з довжиною максимізація коваріації ім'я що знову ефективно скасовує напрями низької дисперсії.βcorr(Xβ,y)ββ=1

cov(Xβ,y)corr(Xβ,y)var(Xβ),

Знайшовши таку (назвемо її ), виходить перший компонент PLS . Далі можна шукати другий (а потім третій і т. Д.) Компонент PLS, який має найбільшу можливу коваріацію з при обмеженні некорельованості з усіма попередніми компонентами. Це потрібно вирішувати ітераційно, оскільки не існує рішення закритої форми для всіх компонентів (напрямок першого компонента просто задаєтьсяββ1z1=Xβ1yβ1Xyнормалізується до одиничної довжини). Коли витягується потрібна кількість компонентів, регресія PLS відкидає оригінальні предиктори та використовує компоненти PLS як нові прогноктори; це дає деяку лінійну комбінацію їх яку можна комбінувати з усіма щоб утворити остаточний .βzβiβPLS

Зауважте, що:

  1. Якщо використовуються всі компоненти PLS1, то PLS буде еквівалентний OLS. Тож кількість компонентів служить параметром регуляризації: чим менше число, тим сильніше регуляризація.
  2. Якщо провісники НЕ корельовані і мають однакові дисперсії (тобто був забеленний ), тобто тільки один PLS1 компонент , і це еквівалентно МНК.XX
  3. Вагові вектори та для не будуть ортогональними, але дадуть некорельовані компоненти та .βiβjijzi=Xβizj=Xβj

Враховуючи це , я не знаю жодних практичних переваг регресії PLS1 перед регресією хребта (хоча останній має багато переваг: він є безперервним і не дискретним, має аналітичне рішення, набагато більш стандартний, дозволяє розширення ядра та аналітичний формули для помилок перехресної перевірки, які залишаються одноразовими, тощо, тощо).


Цитуючи від Франка та Фрідмана:

RR, PCR та PLS розглядаються в Розділі 3, щоб діяти аналогічно. Їх основна мета полягає в тому, щоб перенести вектор коефіцієнта розчину від розчину OLS до напрямків у просторі змінної прогностики для більшого поширення вибірки. Видно, що ПЛР та ПЛС значно сильніше стискаються від напрямків низького розповсюдження, ніж РР, що забезпечує оптимальну усадку (серед лінійних оцінювачів) для попереднього прямого напряму. Таким чином, ПЛР та ПЛС припускають, що правда, ймовірно, має особливі переважні вирівнювання з напрямками високого розповсюдження розподілу змінної предиктора (вибірки). Дещо дивовижним результатом є те, що PLS (крім того) розміщує збільшену масу ймовірності на справжньому векторі коефіцієнта, що вирівнюється з головним напрямком го компонента, деKK - кількість використовуваних компонентів PLS, які фактично розширюють рішення OLS у цьому напрямку.

Вони також проводять широке імітаційне дослідження та роблять висновок (моє наголос):

Для ситуацій, на які поширюється це симуляційне дослідження, можна зробити висновок, що всі зміщені методи (RR, PCR, PLS та VSS) забезпечують істотне вдосконалення порівняно з OLS. [...] У всіх ситуаціях RR домінував над усіма іншими вивченими методами. ПЛС зазвичай робили майже так само, як і RR, і зазвичай перевершували ПЛР, але не дуже.


Оновлення: У коментарях @cbeleites (який працює в хіміометрії) пропонує дві можливі переваги PLS над RR:

  1. Аналітик може апріорно здогадуватися про те, скільки латентних компонентів має бути присутнім у даних; це ефективно дозволить встановити силу регуляризації, не роблячи перехресну перевірку (а може бути недостатньо даних, щоб зробити достовірне резюме). Такий апріорний вибір може бути більш проблематичним для RR.λ

  2. RR дає одну єдину лінійну комбінацію як оптимальне рішення. На відміну від PLS, наприклад, з п'ятьма компонентами, виходить п'ять лінійних комбінацій , які потім об'єднуються для прогнозування . Оригінальні змінні, які сильно взаємопов'язані, швидше за все, будуть об'єднані в єдиний компонент PLS (оскільки об'єднання їх разом збільшить пояснений термін дисперсії). Таким чином, можливо, інтерпретувати окремі компоненти PLS можна як реальні приховані фактори, що впливають на . Твердження полягає в тому, що простіше інтерпретувати тощо, на відміну від спільногоβRRβiyyβ1,β2,βPLS. Порівняйте це з ПЛР, де також можна вважати перевагою те, що окремі основні компоненти потенційно можуть бути інтерпретовані та наділені деяким якісним значенням.


1
Цей папір виглядає корисною. Я не думаю, що це стосується того, наскільки перевиконання може спричинити PLS.
Френк Харрелл

3
Це правильно, @Frank, але якщо чесно, що стосується прогнозування, я не бачу особливого сенсу робити щось інше, ніж регресію хребта (або, можливо, еластичну сітку, якщо бажано також спарити). Мій власний інтерес до PLS полягає в аспекті зменшення розмірності, коли і і є багатоваріантними; тому мене не дуже цікавить, як PLS виконує функцію регуляризації (порівняно з іншими методами регуляризації). Коли у мене є лінійна модель, яку мені потрібно регулювати, я вважаю за краще використовувати хребет. Цікаво, який у вас тут досвід? XY
Амеба каже: Відновити Моніку

3
Мій досвід полягає в тому, що хребет (квадратичне покарання максимальної ймовірності) дає чудові прогнози. Я думаю, що деякі аналітики вважають, що ПЛС - це техніка зменшення розмірності, щоб уникнути перевитрати, але я вважаю, що це не так.
Френк Харрелл

2
б) якщо ви збираєтесь, скажімо, спектроскопічно інтерпретувати те, що робить модель, мені легше подивитися на навантаження PLS, які речовини вимірюються. Ви можете знайти там один або два класи речовини / речовини, оскільки коефіцієнти, що включають усі приховані змінні, важче інтерпретувати, оскільки спектральний внесок більшої кількості речовин поєднується. Це більш помітно, оскільки застосовуються не всі звичні правила спектральної інтерпретації: модель PLS може вибирати деякі смуги речовини, ігноруючи інші. "Нормальна" інтерпретація спектрів використовує багато, що ця смуга могла б ...
cbeleites підтримує Моніку

2
... походять від тієї чи іншої речовини. Якщо це ця речовина, то повинна бути й інша смуга. Оскільки ця остання можливість перевірити речовину неможливо за допомогою прихованих змінних / навантажень / коефіцієнтів, інтерпретувати речі, які різняться разом і тому опиняються в одній і тій же прихованій змінній, набагато простіше, ніж інтерпретувати коефіцієнти, які вже узагальнюють усі види можливих "підказок ", які відомі моделлю.
cbeleites підтримує Моніку

4

Так. Книга Германа Волда « Теоретичний емпіризм: загальне обґрунтування наукового побудови моделей - це найкраща експозиція PLS, яку я знаю, особливо з огляду на те, що Уолд є джерелом підходу. Не кажучи вже про те, що це просто цікава книга, яку читати і знати. Крім того, спираючись на пошук на Amazon, кількість посилань на книги на PLS, написані німецькою мовою, дивує, але можливо, що підзаголовок книги Волда є частиною причини цього.


1
Цей amazon.com/Towards-Unified-Scientist-Models-Methods/dp/… пов'язаний, але охоплює набагато більше, ніж PLS
kjetil b halvorsen

Це правда, але головним напрямком книги є розробка теорії та застосування ПЛС Уолда.
Майк Хантер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.