Геометричне розуміння PCA у предметному (подвійному) просторі

Я намагаюся зрозуміти, як працює аналіз основних компонентів (PCA) у предметному (подвійному) просторі .

Розглянемо 2D набір даних з двома змінними, $x_1$ і , і точок даних (матриця даних дорівнює та передбачається центром). Звичайна презентація PCA полягає в тому, що ми розглядаємо точок у , записуємо матрицю коваріації та знаходимо її власні вектори & власні значення; Перший ПК відповідає напрямку максимальної дисперсії і т. д. Ось приклад з матрицею коваріації . Червоні лінії показують власні вектори, масштабовані квадратними коренями відповідних власних значень. $x_2$ $n$ $\mathbf X$ $n\times 2$ $n$ $\mathbb R^2$ $2\times 2$ $\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right)$

$\hskip 1in$

Тепер розглянемо, що відбувається в предметному просторі (цей термін я дізнався від @ttnphns), також відомий як подвійний простір (термін, який використовується в машинному навчанні). Це -вимірний простір, де зразки наших двох змінних (два стовпці ) утворюють два вектори та . Довжина квадрата кожного змінного вектора дорівнює його дисперсії, косинус кута між двома векторами дорівнює співвідношенню між ними. Це представлення, до речі, дуже стандартне в лікуванні множинної регресії. У моєму прикладі предметний простір виглядає так (я показую лише 2D площину, що охоплюється двома змінними векторами): $n$ $\mathbf X$ $\mathbf x_1$ $\mathbf x_2$

$\hskip 1in$

Основні компоненти, будучи лінійними комбінаціями двох змінних, утворюватимуть два вектори та в одній площині. Моє запитання: що таке геометричне розуміння / інтуїція того, як формувати основні компоненти змінних векторів за допомогою оригінальних змінних векторів на такому графіку? З огляду на та , яка геометрична процедура дасть ? $\mathbf p_1$ $\mathbf p_2$ $\mathbf x_1$ $\mathbf x_2$ $\mathbf p_1$

Нижче моє поточне часткове розуміння цього.

Перш за все, я можу обчислити основні компоненти / осі за допомогою стандартного методу та побудувати їх на одній фігурі:

$\hskip 1in$

Більше того, ми можемо зазначити, що вибирається таким, що сума квадратних відстаней між (синіми векторами) та їх проекціями на мінімальна; ці відстані є помилками відновлення, і вони показані чорними пунктирними лініями. Еквівалентно, максимізує суму квадратних довжин обох проекцій. Це повністю вказує і, звичайно, є повністю аналогічним аналогічному опису в первинному просторі (див. Анімацію у моїй відповіді на тему " Створення сенсу аналізу основних компонентів, власних векторів та власних значень" ). Дивіться також першу частину відповіді @ ttnphns'es тут . $\mathbf p_1$ $\mathbf x_i$ $\mathbf p_1$ $\mathbf p_1$ $\mathbf p_1$

Однак це недостатньо геометрично! Це не говорить мені, як знайти такий і не визначає його довжину. $\mathbf p_1$

Я здогадуюсь, що , , та лежать на одному еліпсі з центром у а та є його головними осями. Ось як це виглядає в моєму прикладі: $\mathbf x_1$ $\mathbf x_2$ $\mathbf p_1$ $\mathbf p_2$ $0$ $\mathbf p_1$ $\mathbf p_2$

$\hskip 1in$

Q1: Як довести це? Пряма алгебраїчна демонстрація здається дуже нудною; як бачити, що це має бути так?

Але є багато різних еліпсів, що зосереджені на і проходять через та : $0$ $\mathbf x_1$ $\mathbf x_2$

$\hskip 1in$

Q2: Що визначає "правильний" еліпс? Моя перша здогадка полягала в тому, що це еліпс із найдовшою можливою головною віссю; але здається, що це неправильно (є еліпси з головною віссю будь-якої довжини).

Якщо є відповіді на Q1 і Q2, я також хотів би знати, чи вони узагальнюють на випадок більш ніж двох змінних.

— Амеба каже Відновити Моніку
джерело

Чи правда, що існує багато можливих еліпсів, які зосереджені біля походження (де х1 та х2 перетинаються) та контактують із дальніми кінцями х1 та х2? Я б подумав, що буде лише один. Безумовно, їх може бути багато, якщо ви розслабите 1 з цих 3 критеріїв (центр та 2 кінці).

— gung - Відновіть Моніку

Існує безліч еліпсів, зосереджених біля початку, що проходять через два вектори. Але для неколінеарних векторів

та

існує лише той, що є одиничним колом у подвійній основі. Це локус

де

(a, b)

$(a,b)$

(c, d)

$(c,d)$

x (a, b) + y (c, d)

$x(a,b)+y(c,d)$

{| {(\begin{matrix} a & c \\ b & d \end{matrix})}^{- 1} (\begin{matrix} x \\ y \end{matrix}) |}^{2} = 1.

$\left|\pmatrix{a&c\\b&d}^{-1}\pmatrix{x\\y}\right|^2=1.$ Багато чого можна дізнатися з основних її осей.

— whuber

variable space (I borrowed this term from ttnphns)- @amoeba, ти мусиш помилитися. Змінні як вектори в (спочатку) n-мірному просторі називають предметним простором (n предметів як осі "визначають" простір, тоді як p змінні "охоплюють" його). Змінний простір - навпаки, зворотний - тобто звичайний розсіювач. Так утверджується термінологія у багатовимірній статистиці. (Якщо в машинному навчанні це інакше - я цього не знаю - тоді так гірше це для учнів.)

— ttnphns

Зауважте, що обидва є векторними просторами: вектори (= точки) - це те, що прольоти, осі - це те, що визначає напрямки та виїмки вимірювання ведмедя. Зауважте також діалектику: обидва "простору" - це насправді один і той же простір (лише сформульований по-різному для поточної мети). Це видно, наприклад, на останньому малюнку в цій відповіді . Перекриваючи дві форми, ви отримуєте біплот або подвійний простір.

— ttnphns

My guess is that x1, x2, p1, p2 all lie on one ellipseЯкою може бути евристична допомога від еліпса? Я сумніваюся в цьому.

— ttnphns

Усі зведені у запитання підсумки залежать лише від його другого моменту; або, що те ж саме, на матрицю . Тому що ми маємо в вигляді в якості точки помутніння --each точки знаходиться ряд --ми може запитати , що прості операції з цих питань збереження властивостей . $\mathbf X$ $\mathbf{X^\prime X}$ $\mathbf X$ $\mathbf X$ $\mathbf{X^\prime X}$

Одним з них є наліво-кратно з допомогою матриці , яка буде виробляти інший матриці . Щоб це працювало, важливо це $\mathbf X$ $n\times n$ $\mathbf U$ $n\times 2$ $\mathbf{UX}$

X^{'} X = (U X)^{'} U X = X^{'} (U^{'} U) X .

$\mathbf{X^\prime X} = \mathbf{(UX)^\prime UX} = \mathbf{X^\prime (U^\prime U) X}.$

Рівність гарантується тоді, коли - матриця тотожності : тобто, коли є ортогональною . $\mathbf{U^\prime U}$ $n\times n$ $\mathbf{U}$

Добре відомо (і це легко продемонструвати), що ортогональні матриці є добутками евклідових відображень та обертань (вони утворюють групу відображення в ). Вибираючи ротацію з розумом, ми можемо значно спростити . Одна ідея полягає в тому, щоб зосередити увагу на обертаннях, які впливають лише на дві точки в хмарі одночасно. Це особливо просто, тому що ми можемо їх візуалізувати. $\mathbb{R}^n$ $\mathbf{X}$

В Зокрема, нехай і дві різні точки , відмінні від нуля в хмарі, складаючи на рядки і на . Обертання простору стовпця що впливає лише на ці дві точки, перетворює їх у $(x_i, y_i)$ $(x_j, y_j)$ $i$ $j$ $\mathbf{X}$ $\mathbb{R}^n$

{\begin{cases} (x_{i}^{'}, y_{i}^{'}) = (\cos (θ) x_{i} + \sin (θ) x_{j}, \cos (θ) y_{i} + \sin (θ) y_{j}) \\ (x_{j}^{'}, y_{j}^{'}) = (- \sin (θ) x_{i} + \cos (θ) x_{j}, - \sin (θ) y_{i} + \cos (θ) y_{j}) . \end{cases}

$\cases{(x_i^\prime, y_i^\prime) = (\cos(\theta)x_i + \sin(\theta)x_j, \cos(\theta)y_i + \sin(\theta)y_j) \\ (x_j^\prime, y_j^\prime) = (-\sin(\theta)x_i + \cos(\theta)x_j, -\sin(\theta)y_i + \cos(\theta)y_j).}$

Для цього належить намалювати вектори та у площині та обертати їх на кут . (Зверніть увагу, як координати тут змішуються! ідуть один з одним, а йдуть разом. Таким чином, ефект цього обертання в зазвичай не буде схожим на обертання векторів і $(x_i, x_j)$ $(y_i, y_j)$ $\theta$ $x$ $y$ $\mathbb{R}^n$ $(x_i, y_i)$ $(x_j, y_j)$ як показано в $\mathbb{R}^2$ )

Вибравши кут прямо, ми можемо знецілити будь-яку з цих нових складових. Щоб бути конкретним, виберемо так, щоб $\theta$

{\begin{cases} \cos (θ) = \pm \frac{x_{i}}{\sqrt{x_{i}^{2} + x_{j}^{2}}} \\ \sin (θ) = \pm \frac{x_{j}}{\sqrt{x_{i}^{2} + x_{j}^{2}}} \end{cases} .

$\cases{\cos(\theta) = \pm \frac{x_i}{\sqrt{x_i^2 + x_j^2}} \\ \sin(\theta) = \pm \frac{x_j}{\sqrt{x_i^2 + x_j^2}}}.$

Це робить . Виберіть знак, щоб утворити . Назвемо цю операцію, яка змінює точки та у хмарі, представленій , . $x_j^\prime=0$ $y_j^\prime \ge 0$ $i$ $j$ $\mathbf X$ $\gamma(i,j)$

Рекурсивне застосування до призведе до того, що перший стовпець буде ненульовим лише у першому рядку. Геометрично ми перемістимо всі, крім однієї точки в хмарі, на вісь . Тепер ми можемо застосувати одне обертання, потенційно залучаючи координати в , щоб видавити ці $\gamma(1,2), \gamma(1,3), \ldots, \gamma(1,n)$ $\mathbf{X}$ $\mathbf{X}$ $y$ $2, 3, \ldots, n$ $\mathbb{R}^n$ бал вниз до однієї точки. Еквівалентно, було зведено до блокової форми $n-1$ $X$

X = (\begin{matrix} x_{1}^{'} & y_{1}^{'} \\ 0 & z \end{matrix}),

$\mathbf{X} = \pmatrix{x_1^\prime & y_1^\prime \\ \mathbf{0} & \mathbf{z}},$

з і обидва вектори стовпців з координатами таким чином, що $\mathbf{0}$ $\mathbf{z}$ $n-1$

X^{'} X = (\begin{matrix} {(x_{1}^{'})}^{2} & x_{1}^{'} y_{1}^{'} \\ x_{1}^{'} y_{1}^{'} & {(y_{1}^{'})}^{2} + | | z | |^{2} \end{matrix}) .

$\mathbf{X^\prime X} = \pmatrix{\left(x_1^\prime\right)^2 & x_1^\prime y_1^\prime \\ x_1^\prime y_1^\prime & \left(y_1^\prime\right)^2 + ||\mathbf{z}||^2}.$

Це остаточне обертання ще більше зводить до його верхньої трикутної форми $\mathbf{X}$

X = (\begin{matrix} x_{1}^{'} & y_{1}^{'} \\ 0 & | | z | | \\ 0 & 0 \\ ⋮ & ⋮ \\ 0 & 0 \end{matrix}) .

$\mathbf{X} = \pmatrix{x_1^\prime & y_1^\prime \\ 0 & ||\mathbf{z}|| \\ 0 & 0 \\ \vdots & \vdots \\ 0 & 0}.$

$\mathbf{X}$ $2\times 2$ $\pmatrix{x_1^\prime & y_1^\prime \\ 0 & ||\mathbf{z}||}$

Для ілюстрації я намалював чотири точки iid з біваріантного нормального розподілу і округлив їх значення до

X = (\begin{matrix} 0.09 & 0.12 \\ - 0.31 & - 0.63 \\ 0.74 & - 0.23 \\ - 1.8 & - 0.39 \end{matrix})

$\mathbf{X} = \pmatrix{ 0.09 & 0.12 \\ -0.31 & -0.63 \\ 0.74 & -0.23 \\ -1.8 & -0.39}$

Ця початкова хмара точок показана зліва від наступної фігури за допомогою суцільних чорних крапок, кольорові стрілки яких спрямовані від початку до кожної точки (щоб допомогти нам візуалізувати їх як вектори ).

$\gamma(1,2), \gamma(1,3),$ $\gamma(1,4)$ $y$ $\mathbf X$ $||\mathbf{z}||$ ; the other (blue) vector is $(x_1^\prime, y_1^\prime)$ .

Notice the faint dotted shape drawn for reference in all five panels. It represents the last remaining flexibility in representing $\mathbf X$ : as we rotate the first two rows, the last two vectors trace out this ellipse. Thus, the first vector traces out the path

\begin{matrix} (1) & θ \to (\cos (θ) x_{1}^{'}, \cos (θ) y_{1}^{'} + \sin (θ) | | z | |) \end{matrix}

$\theta\ \to\ (\cos(\theta)x_1^\prime, \cos(\theta) y_1^\prime + \sin(\theta)||\mathbf{z}||)\tag{1}$

while the second vector traces out the same path according to

\begin{matrix} (2) & θ \to (- \sin (θ) x_{1}^{'}, - \sin (θ) y_{1}^{'} + \cos (θ) | | z | |) . \end{matrix}

$\theta\ \to\ (-\sin(\theta)x_1^\prime, -\sin(\theta) y_1^\prime + \cos(\theta)||\mathbf{z}||).\tag{2}$

We may avoid tedious algebra by noting that because this curve is the image of the set of points $\{(\cos(\theta), \sin(\theta))\,:\, 0 \le \theta\lt 2\pi\}$ under the linear transformation determined by

(1, 0) \to (x_{1}^{'}, 0); (0, 1) \to (y_{1}^{'}, | | z | |),

$(1,0)\ \to\ (x_1^\prime, 0);\quad (0,1)\ \to\ (y_1^\prime, ||\mathbf{z}||),$

it must be an ellipse. (Question 2 has now been fully answered.) Thus there will be four critical values of $\theta$ in the parameterization $(1)$ , of which two correspond to the ends of the major axis and two correspond to the ends of the minor axis; and it immediately follows that simultaneously $(2)$ gives the ends of the minor axis and major axis, respectively. If we choose such a $\theta$ , the corresponding points in the point cloud will be located at the ends of the principal axes, like this:

Because these are orthogonal and are directed along the axes of the ellipse, they correctly depict the principal axes: the PCA solution. That answers Question 1.

The analysis given here complements that of my answer at Bottom to top explanation of the Mahalanobis distance. There, by examining rotations and rescalings in $\mathbb{R}^2$ , I explained how any point cloud in $p=2$ dimensions geometrically determines a natural coordinate system for $\mathbb{R}^2$ . Here, I have shown how it geometrically determines an ellipse which is the image of a circle under a linear transformation. This ellipse is, of course, an isocontour of constant Mahalanobis distance.

Another thing accomplished by this analysis is to display an intimate connection between QR decomposition (of a rectangular matrix) and the Singular Value Decomposition, or SVD. The $\gamma(i,j)$ are known as Givens rotations. Their composition constitutes the orthogonal, or " $Q$ ", part of the QR decomposition. What remained--the reduced form of $\mathbf{X}$ --is the upper triangular, or " $R$ " part of the QR decomposition. At the same time, the rotation and rescalings (described as relabelings of the coordinates in the other post) constitute the $\mathbf{D}\cdot \mathbf{V}^\prime$ part of the SVD, $\mathbf{X} = \mathbf{U\, D\, V^\prime}$ . The rows of $\mathbf{U}$ , incidentally, form the point cloud displayed in the last figure of that post.

Finally, the analysis presented here generalizes in obvious ways to the cases $p\ne 2$ : that is, when there are just one or more than two principal components.

— whuber
джерело

Though your answer may be exemplary on it own it is unclear - to me - how it relates to the question. You are speaking throughout about the data cloud X (and vectors you rotate are data points, rows of X). But the question was about the reduced subject space. In other words, we don't have any data X, we have only 2x2 covariance or scatter matrix X'X.

— ttnphns

(cont.) We represent the 2 variables summarized by it as 2 vectors with lengths = sqrt(diagonal elements) and angle = their correlation. Then the OP askes how can we purely geometrically solve for the principal components. In other words, OP wants to explain geometrically eigendecomposition (eigenvalues & eigenvectors or, better, loadings) of 2x2 symmetric covariance matrix.

— ttnphns

(cont.) Please look on the second picture there. What the OP of the current question seeks for is to find geometric (trigonometric etc) tools or tricks to draw the vectors P1 and P2 on that pic, having only vectors X and Y as given.

— ttnphns

@ttnphns. It doesn't matter what the starting point is: the first half of this answer shows that you can reduce any point cloud

X

$\mathbf{X}$ to a pair of points which contain all the information about $\mathbf{X^\prime X}$ . The second half demonstrates that pair of points is not unique, but nevertheless each lies on the same ellipse. It gives an explicit construction of that ellipse beginning with any two-point representation of

X^{'} X

$\mathbf{X^\prime X}$ (such as the pair of blue vectors shown in the question). Its major and minor axes yield the PCA solution (the red vectors).

— whuber

Thanks, I'm beginning to understand your thought. (I wish you added subtitles / synopsis right in your answer about the two "halves" of it, just to structure it for a reader.)

— ttnphns