1. Що таке регресія зниженого рангу (RRR)?
Розглянемо багатоваріантну множинну лінійну регресію, тобто регресію з незалежними змінними та q залежними змінними. Нехай X і Y мають по центру набори даних прогнозу ( n × p ) та відповіді ( n × q ). Тоді звичайна регресія звичайних найменших квадратів (OLS) може бути сформульована як мінімізація наступної функції витрат:pqXYn×pn×q
L=∥Y−XB∥2,
де - матриця р × q ваг регресії. Її рішення дається формулою B O L S = ( Х ⊤ Х ) -Bp×qі це легко бачитищо це еквівалентно робитиQокремі МНК регресії,одному для кожної залежної змінної.
B^OLS=(X⊤X)−1X⊤Y,
q
Регресія пониженого рангу вводить обмеження на рангові показники , а саме L слід мінімізувати з рангом ( B)BL , де R є максимально допустимим ранг B .rank(B)≤rrB
2. Як отримати розчин RRR?
Виявляється, RRR можна подати як проблему власного вектора. У самому справі, використовуючи той факт , що МНК є по суті ортогональної проекцією на колонці простору , можна переписати L , як L = ‖ У - Х Б Про Л S | | 2 + | | Х Б Про Л С - Х Б | | 2 . Перший доданок не залежить від B , а другий член може бути зведений до мінімуму з допомогою SVD / PCA з підігнаних значень Y = X BХL
L = ∥ Y - X B^O L S∥2+ ∥ X B^O L S- X B ∥2.
Б .
Y^= X В^O L S
В Зокрема, якщо спочатку R головні осі Y , то B R R R = B O L S U R U ⊤ г .UrrY^
Б^R R R= В^O L SUrU⊤r.
3. Для чого хороший RRR?
Причин використання RRR може бути дві.
Бr
По-друге, можна використовувати його як метод зменшення розмірності / дослідження даних. Якщо у нас є купа змінних предиктора та купа залежних змінних, то RRR побудує «приховані фактори» в просторі прогноктора, які найкраще справляться з поясненням дисперсії DV. Тоді можна спробувати інтерпретувати ці приховані фактори, побудувати їх графік тощо. Наскільки я знаю, це звичайно робиться в екології, де RRR відомий як аналіз надмірності і є прикладом того, що вони називають методами ординації ( див. Відповідь @ GavinSimpson тут ).
4. Зв'язок з іншими методами зменшення розмірності
RRR тісно пов'язаний з іншими методами зменшення розмірності, такими як CCA і PLS. Я трохи висвітлив це у своїй відповіді на те, який зв'язок між частковими найменшими квадратами, зменшеною регресією регресу та регресією основних компонентів?
якщо і Y - по центру набору даних даних провіктора ( n × p ) і відповіді ( n × q ), і якщо ми шукаємо першу пару осей, w ∈ R p для X і v ∈ R q для YХYn × pn × qw ∈ RpХv ∈ RqY , то ці методи максимізують наступні кількості:
P C A :R R R :P L S :C C A :Вар( X ш )Вар( X w ) ⋅Кор2( X w , Y v ) ⋅ Var( Y v )Вар( X w ) ⋅ Корр2( X w , Y v ) ⋅ Var( Y v ) = Cov2( X w , Y v )Var( X w ) ⋅Кор2( X w , Y v )
Дивіться там докладнішу інформацію.
Дивіться Torre, 2009, Рамка з найменшими квадратами для аналізу компонентів для детальної обробки того, як більшість загальних лінійних багатоваріантних методів (наприклад, PCA, CCA, LDA, - але не PLS!) Можна розглядати як RRR.
5. Чому цей розділ у Хасті та ін. так заплутано?
L = ∥ Y - X B ∥2,
L = ∥ ( Y - X B ) ( Y⊤Y )−1/2∥2,
YYбіліє, тоді різниця зникає. Отже, що Hastie та ін. call RRR - це насправді CCA у масках (і справді, дивіться їх 3.69).
У цьому розділі нічого з цього не пояснено належним чином, звідси плутанина.
Дивіться мою відповідь на Дружній підручник або вступ до регресії зі зниженим рангом для подальшого читання.