Як виконати ортогональну регресію (всього найменших квадратів) за допомогою PCA?

Я завжди використовую lm()в R для виконання лінійної регресії на . Ця функція повертає коефіцієнт такий, що $y$ $x$ $\beta$

y = β x .

$y = \beta x.$

Сьогодні я дізнався про загальні найменші квадрати і цю princomp()функцію (аналіз основних компонентів, PCA) можна використовувати для її виконання. Це має бути добре для мене (точніше). Я зробив кілька тестів, використовуючи princomp(), наприклад:

r <- princomp( ~ x + y)

Моя проблема така: як інтерпретувати її результати? Як я можу отримати коефіцієнт регресії? Під "коефіцієнтом" я маю на увазі число яке мені потрібно використовувати для множення значення щоб дати число, близьке до . $\beta$ $x$ $y$

— Dail
джерело

Хвилинку хлопці, я трохи розгублений. подивіться на: zoonek2.free.fr/UNIX/48_R/09.html Це називається PCA (аналіз основних компонентів, він же "ортогональна регресія" або "перпендикулярні суми квадратів" або "загальні найменші квадрати"), тому я думаю, що ми говоримо про TLS з princomp () Ні?

— Dail

Ні; це дві різні речі, дивіться у статті wikipedia про PCA. Те, що він тут використовується, - це хак (я не знаю, наскільки точно, але я збираюся це перевірити); тому складне вилучення коефіцієнтів.

Питання, пов’язані з цим: stats.stackexchange.com/questions/2691/…, а в блозі посилається одна з відповідей: cerebralmastication.com/2010/09/…

— Джонатан

Звичайні найменші квадрати проти загальних найменших квадратів

Розглянемо спочатку найпростіший випадок лише однієї (незалежної) змінної . Для простоти нехай по центру і обидва і , тобто перехоплення завжди дорівнює нулю. Різниця між стандартною регресією OLS та "ортогональною" регресією TLS чітко показана на цій (адаптованій мною) фігурі з найпопулярнішої відповіді в найпопулярнішій темі PCA: $x$ $x$ $y$

OLS проти TLS

OLS підходить до рівняння , зводячи до мінімуму відстані у квадраті між спостережуваними значеннями та прогнозованими значеннями . TLS підходить до того ж рівняння, мінімізуючи відстані у квадраті між точками та їх проекцією на пряму. У цьому найпростішому випадку рядок TLS - це просто перший основний компонент 2D-даних. Для того, щоб знайти , зробіть PCA на точок, тобто побудувати ковариационной матриці і знайти свій перший власний вектор ; тоді . $y=\beta x$ $y$ $\hat y$ $(x,y)$ $\beta$ $(x,y)$ $2\times 2$ $\boldsymbol \Sigma$ $\mathbf v = (v_x, v_y)$ $\beta = v_y/v_x$

У Матлабі:

 v = pca([x y]);    //# x and y are centered column vectors
 beta = v(2,1)/v(1,1);

В R:

 v <- prcomp(cbind(x,y))$rotation
 beta <- v[2,1]/v[1,1]

До речі, це дасть правильний нахил, навіть якщо і не були в центрі (адже вбудовані функції PCA автоматично виконують центрування). Щоб відновити перехоплення, обчисліть . $x$ $y$ $\beta_0 = \bar y - \beta \bar x$

OLS проти TLS, множинна регресія

З огляду на залежну змінну та безліч незалежних змінних (знову ж таки, все зосереджено для простоти), регресія відповідає рівняннюOLS підходить, мінімізуючи помилки в квадраті між спостережуваними значеннями та прогнозованими значеннями . TLS підходить, мінімізуючи відстані у квадраті між спостережуваними пунктами та найближчими точками на площині регресії / гіперплані. $y$ $x_i$

у = β_{1} х_{1} + \dots + β_{p} х_{p} .

$y= \beta_1 x_1 + \ldots + \beta_p x_p.$

y

$y$

\hat{y}

$\hat y$

(x, y) \in R^{p + 1}

$(\mathbf x, y)\in\mathbb R^{p+1}$

Зауважте, що вже немає "лінії регресії"! Вище наведене рівняння вказує на гіперплан : це 2D площина, якщо є два предиктори, 3D гіперплан, якщо є три предиктори тощо. Отже, рішення вище не працює: ми не можемо отримати рішення TLS, взявши лише перший ПК (який є рядок). Проте рішення можна легко отримати за допомогою PCA.

Як і раніше, PCA виконується в точках. Це дає власні вектори в колонках . Перші власні вектори визначають -вимірну гіперплощину яка нам потрібна; останній (число ) власного вектора є ортогональним для нього. Питання полягає в тому, як перетворити основу задану першими власними векторами, у коефіцієнти . $(\mathbf x, y)$ $p+1$ $\mathbf V$ $p$ $p$ $\mathcal H$ $p+1$ $\mathbf v_{p+1}$ $\mathcal H$ $p$ $\boldsymbol \beta$

Зауважте, що якщо ми встановимо для всіх і тільки , то , тобто вектор лежить в гиперплоскости . З іншого боку, ми знаємо, що є ортогональним для нього. Тобто їх крапковий добуток повинен дорівнювати нулю: $x_i=0$ $i \ne k$ $x_k=1$ $\hat y=\beta_k$

(0, \dots, 1, \dots, β_{к}) \in Н

$(0,\ldots, 1, \ldots, \beta_k) \in \mathcal H$

H

$\mathcal H$

v_{p + 1} = (v_{1}, \dots, v_{p + 1}) ⊥ Н

$\mathbf v_{p+1}=(v_1, \ldots, v_{p+1}) \:\bot\: \mathcal H$

v_{к} + β_{к} v_{p + 1} = 0 \Rightarrow β_{к} = - v_{к} / v_{p + 1} .

$v_k + \beta_k v_{p+1}=0 \Rightarrow \beta_k = -v_k/v_{p+1}.$

У Матлабі:

 v = pca([X y]);    //# X is a centered n-times-p matrix, y is n-times-1 column vector
 beta = -v(1:end-1,end)/v(end,end);

В R:

 v <- prcomp(cbind(X,y))$rotation
 beta <- -v[-ncol(v),ncol(v)] / v[ncol(v),ncol(v)]

Знову ж таки, це призведе до правильних нахилів, навіть якщо і не були в центрі (оскільки вбудовані функції PCA автоматично виконують центрування). Щоб відновити перехоплення, обчисліть . $x$ $y$ $\beta_0 = \bar y - \bar {\mathbf x} \boldsymbol \beta$

В якості перевірки обгрунтованості зауважте, що це рішення збігається з попереднім у випадку лише одного предиктора . Дійсно, тоді простір дорівнює 2D, і так, враховуючи, що перший власний вектор PCA ортогональний другому (останньому), . $x$ $(x,y)$ $v^{(1)}_y/v^{(1)}_x=-v^{(2)}_x/v^{(2)}_y$

Розчин закритої форми для TLS

Дивно, але виявляється, що для існує рівняння закритої форми . Аргумент, наведений нижче, взято з книги Сабін ван Хаффеля "Загальні найменші квадрати" (розділ 2.3.2). $\boldsymbol \beta$

Нехай і - централізовані матриці даних. Останній власний вектор PCA є власним вектором коваріаційної матриці з власним значенням . Якщо це власний вектор, то так . Запис рівняння власного вектора: $\mathbf X$ $\mathbf y$ $\mathbf v_{p+1}$ $[\mathbf X\: \mathbf y]$ $\sigma^2_{p+1}$ $-\mathbf v_{p+1}/v_{p+1} = (\boldsymbol \beta\:\: -1)^\top$

(\begin{matrix} Х^{⊤} Х & Х^{⊤} у \\ у^{⊤} Х & у^{⊤} у \end{matrix}) (\begin{matrix} β \\ - 1 \end{matrix}) = σ_{p + 1}^{2} (\begin{matrix} β \\ - 1 \end{matrix}),

$\left(\begin{array}{c}\mathbf X^\top \mathbf X & \mathbf X^\top \mathbf y\\ \mathbf y^\top \mathbf X & \mathbf y^\top \mathbf y\end{array}\right) \left(\begin{array}{c}\boldsymbol \beta \\ -1\end{array}\right) = \sigma^2_{p+1}\left(\begin{array}{c}\boldsymbol \beta \\ -1\end{array}\right),$ і добуток зліва, ми одразу отримуємо, що що сильно нагадує знайомий вираз OLS

β_{Т L S} = (Х^{⊤} Х - σ_{p + 1}^{2} Я)^{- 1} Х^{⊤} у,

$\boldsymbol \beta_\mathrm{TLS} = (\mathbf X^\top \mathbf X - \sigma^2_{p+1}\mathbf I)^{-1} \mathbf X^\top \mathbf y,$

β_{О L S} = (Х^{⊤} Х)^{- 1} Х^{⊤} у .

$\boldsymbol \beta_\mathrm{OLS} = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y.$

Багатоваріантна множинна регресія

Ця ж формула може бути узагальнена до мультиваріантного випадку, але навіть для визначення того, що робить багатоваріантний TLS, потрібна була б алгебра. Дивіться Вікіпедію на TLS . Багатоваріантна регресія OLS еквівалентна купі одновимірних регресій OLS для кожної залежної змінної, але у випадку TLS це не так.

— Амеба каже Відновити Моніку
джерело

Я не знаю R, але все ж хотів надати R фрагменти для подальшого використання. Тут багато людей, які знають Р. Будь ласка, не соромтесь редагувати мої фрагменти, якщо потрібно! Дякую.

— амеба каже: Відновити Моніку

Приємний пост, але якщо я можу запитати, що гарантує той факт, що вектор лежить у гіперплані?

(0, \dots, 1, \dots, β_{k})

$(0,\ldots, 1, \ldots, \beta_k)$

— ДжонК

@JohnK, я не впевнений, що саме незрозуміло. Як я писав, нехай усі дорівнюють нулю, крім . Тоді якщо ви підключите це до , ви отримаєте . Отже точка лежить на гіперплані, визначеній рівнянням .

x_{i}

$x_i$

x_{k} = 1

$x_k=1$

y = \sum β_{j} x_{j}

$y=\sum \beta_j x_j$

y = β_{k} \cdot 1 = β_{k}

$y=\beta_k\cdot 1 = \beta_k$

(0, \dots, 1, \dots β_{k})

$(0,\ldots, 1, \ldots \beta_k)$

y = \sum β_{j} x_{j}

$y=\sum \beta_j x_j$

— амеба каже: Відновити Моніку

Я, здається, неправильно прочитав цю частину, але зараз це зрозуміло. Дякуємо також за роз’яснення.

— JohnK

У R ви можете віддати перевагу "eigen (cov (cbind (x, y)))" $ $ vectors "over" prcomp (cbind (x, y)) $ rotatation ", тому що колишній набагато швидший для більших векторів.

— Томас Браун

На основі наївної реалізації GNU Octave, знайденої тут , щось подібне може (зерно солі, пізно) працювати.

tls <- function(A, b){

  n <- ncol(A)
  C <- cbind(A, b)

  V <- svd(C)$v
  VAB <- V[1:n, (n+1):ncol(V)]
  VBB <- V[(n+1):nrow(V), (n+1):ncol(V)]
  return(-VAB/VBB)
}

— кашо
джерело

princompпроводиться аналіз основних компонентів замість загальної регресії найменших квадратів. Наскільки я знаю, немає функції R, ні пакета, який виконує TLS; у MethComp - максимум, є регресія Демінга .
Але, будь ласка, трактуйте це як припущення, що це, швидше за все, не варто.

Я думав, що Демінг у пакеті MethComp був TLS - у чому різниця?

— mark999

Ви повинні дати йому співвідношення помилок на x і y; чистий TLS оптимізує це.