Що таке "регресія зниженого рангу"?


22

Я читав "Елементи статистичного навчання" і не міг зрозуміти, про що йдеться в розділі 3.7 "Багаторазове скорочення та вибір". Це говорить про RRR (регресія зі зниженим рангом), і я можу лише зрозуміти, що передумова стосується узагальненої багатовимірної лінійної моделі, де коефіцієнти невідомі (і підлягають оцінці), але, як відомо, не мають повного рангу. Це єдине, що я розумію.

Решта математики - поза мною. Навіть не допомагає, що автори кажуть, що «можна показати», і залишає речі як вправу.

Може хтось допоможе пояснити, що тут відбувається, інтуїтивно? Чи в цьому розділі нібито обговорюються нові методи? або те, що?


1
Здається, вони дають методи регресії, які використовують велику кількість моделей результатів у контексті усадки та вибору змінних. Немає жодного результату Y, але більше ніж один Y результат. Скажімо, у вас є 5 результатів Y, то в цьому розділі розглядаються методи об'єднання оцінок методів, а не просто побудова 5 окремих моделей.
spdrnl

1
Мої кілька центів: припущення про матрицю низького рангу полегшує справи. На щастя, це припущення справедливо для багатьох джерел даних реального світу.
Владислав Довгалеч

1
Схоже, що це припущення стосується обмеження рішення. У цьому документі описано, чому statprob.com/encyclopedia/…
Владислав Довгалеч

Відповіді:


42

1. Що таке регресія зниженого рангу (RRR)?

Розглянемо багатоваріантну множинну лінійну регресію, тобто регресію з незалежними змінними та q залежними змінними. Нехай X і Y мають по центру набори даних прогнозу ( n × p ) та відповіді ( n × q ). Тоді звичайна регресія звичайних найменших квадратів (OLS) може бути сформульована як мінімізація наступної функції витрат:pqХYн×pн×q

L=Y-ХБ2,

де - матриця р × q ваг регресії. Її рішення дається формулою B O L S = ( ХХ ) -Bp×qі це легко бачитищо це еквівалентно робитиQокремі МНК регресії,одному для кожної залежної змінної.

B^OLS=(XX)1XY,
q

Регресія пониженого рангу вводить обмеження на рангові показники , а саме L слід мінімізувати з рангом ( B)BL , де R є максимально допустимим ранг B .rank(B)rrB

2. Як отримати розчин RRR?

Виявляється, RRR можна подати як проблему власного вектора. У самому справі, використовуючи той факт , що МНК є по суті ортогональної проекцією на колонці простору , можна переписати L , як L = У - Х Б Про Л S | | 2 + | | Х Б Про Л С - Х Б | | 2 . Перший доданок не залежить від B , а другий член може бути зведений до мінімуму з допомогою SVD / PCA з підігнаних значень Y = X BХL

L=Y-ХБ^ОLS2+ХБ^ОLS-ХБ2.
Б .Y^=ХБ^ОLS

В Зокрема, якщо спочатку R головні осі Y , то B R R R = B O L S U R U г .UrrY^

Б^RRR=Б^ОLSUrUr.

3. Для чого хороший RRR?

Причин використання RRR може бути дві.

Бr

По-друге, можна використовувати його як метод зменшення розмірності / дослідження даних. Якщо у нас є купа змінних предиктора та купа залежних змінних, то RRR побудує «приховані фактори» в просторі прогноктора, які найкраще справляться з поясненням дисперсії DV. Тоді можна спробувати інтерпретувати ці приховані фактори, побудувати їх графік тощо. Наскільки я знаю, це звичайно робиться в екології, де RRR відомий як аналіз надмірності і є прикладом того, що вони називають методами ординації ( див. Відповідь @ GavinSimpson тут ).

4. Зв'язок з іншими методами зменшення розмірності

RRR тісно пов'язаний з іншими методами зменшення розмірності, такими як CCA і PLS. Я трохи висвітлив це у своїй відповіді на те, який зв'язок між частковими найменшими квадратами, зменшеною регресією регресу та регресією основних компонентів?

якщо і Y - по центру набору даних даних провіктора ( n × p ) і відповіді ( n × q ), і якщо ми шукаємо першу пару осей, wR p для X і vR q для YХYн×pн×qшRpХvRqY , то ці методи максимізують наступні кількості:

PСА:Вар(Хш)RRR:Вар(Хш)Кор2(Хш,Yv)Вар(Yv)ПLS:Вар(Хш)Кор2(Хш,Yv)Вар(Yv)=Ков2(Хш,Yv)ССА:Вар(Хш)Кор2(Хш,Yv)

Дивіться там докладнішу інформацію.

Дивіться Torre, 2009, Рамка з найменшими квадратами для аналізу компонентів для детальної обробки того, як більшість загальних лінійних багатоваріантних методів (наприклад, PCA, CCA, LDA, - але не PLS!) Можна розглядати як RRR.

5. Чому цей розділ у Хасті та ін. так заплутано?

L=Y-ХБ2,
L=(YXB)(YY)1/22,
YYбіліє, тоді різниця зникає. Отже, що Hastie та ін. call RRR - це насправді CCA у масках (і справді, дивіться їх 3.69).

У цьому розділі нічого з цього не пояснено належним чином, звідси плутанина.


Дивіться мою відповідь на Дружній підручник або вступ до регресії зі зниженим рангом для подальшого читання.


Це дуже красиво написане детальне пояснення. Дякую, я ціную це.
cgo

rB

1
YBBLBL

1
rrdf^(r)=pq(pr)(qr)+"a small correction term"pqrYY^RRRR(r)Fro2(nqdf^(r))2

1
Дивіться, наприклад, google.fr/url?sa=t&source=web&rct=j&url=https://…
dohmatob

3

Регресія зі зниженим рейтингом - це модель, де існує не один результат Y, а множинні результати Y. Звичайно, ви можете просто встановити окрему багатоваріантну лінійну регресію для кожної відповіді, але це здається неефективним, коли функціональний зв'язок між предикторами та кожною відповіддю явно схожий. Подивіться на цю вправу на кубок у ситуації, коли я вважаю, що це очевидно.

https://www.kaggle.com/c/bike-sharing-demand/data

Існує кілька споріднених прийомів наближення до цієї проблеми, які будують "фактори" або "компоненти" з X змінних, які потім використовуються для прогнозування Ys. Ця сторінка з документацією від SAS допомогла мені виправити відмінності. Зниження регресу рейтингу, здається, стосується вилучення компонентів, які максимально враховують різницю між відповідями, на відміну від «Часткових найменших квадратів», які витягують компоненти, які максимально враховують різницю як у відповідях, так і в прогнозах.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm


+1. Це правильно. Я обговорював цю сторінку документації SAS і, зокрема, їхню фігуру у своїй відповіді на stats.stackexchange.com/questions/206587.
амеба каже, що відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.