Зв'язок між SVD та PCA. Як використовувати SVD для виконання PCA?

351

Аналіз основних компонентів (PCA) зазвичай пояснюється шляхом власного розкладання коваріаційної матриці. Тим НЕ менше, він також може бути виконаний з допомогою сингулярного розкладання (SVD) матриць даних . Як це працює? Який зв’язок між цими двома підходами? Який взаємозв'язок між SVD та PCA? $\mathbf X$

Або іншими словами, як використовувати SVD матриці даних для виконання зменшення розмірності?

— амеби
джерело

Я написав це запитання у стилі FAQ разом зі своєю власною відповіддю, оскільки його часто задають у різних формах, але немає канонічної нитки, і тому закрити дублікати складно. Будь ласка, надайте мета коментарі в цій супровідній метапотоці .

— амеба

stats.stackexchange.com/questions/177102/…

— b halvorsen

На додаток до чудової та детальної відповіді амеби та її подальших посилань, я можу порекомендувати перевірити це , коли PCA розглядається поруч з деякими іншими методами на основі SVD. У дискусії представлена алгебра, майже ідентична амебі, з незначною різницею, що мова, описана PCA, йде про розкладання svd

[або

X / \sqrt{n}

$\mathbf X/\sqrt{n}$

] замість

- що просто зручно, оскільки це стосується PCA, виконаного за допомогою ейгендекомпозиції матриці коваріації.

X / \sqrt{n - 1}

$\mathbf X/\sqrt{n-1}$

X

$\bf X$

— ttnphns

PCA - це особливий випадок SVD. PCA потребує нормалізованих даних, в ідеалі однаковий блок. Матриця nxn в PCA.

— Орвар Корвар

@OrvarKorvar: Про яку матрицю nxn ви говорите?

— Cbhihe

Відповіді:

412

Нехай матриця даних має розмір , де - кількість вибірок, а - кількість змінних. Припустимо, що він по центру , тобто засоби стовпця були відняті і тепер дорівнюють нулю. $\mathbf X$ $n \times p$ $n$ $p$

Тоді ковариационной матриці задається . Це симетрична матриця, і тому її можна діагоналізувати: де - матриця власних векторів (кожен стовпець - власний вектор), а - діагональна матриця з власними значеннями у порядку зменшення по діагоналі . Власні вектори називають головними осями або основними напрямками $p \times p$ $\mathbf C$ $\mathbf C = \mathbf X^\top \mathbf X/(n-1)$

C = V L V^{⊤},

$\mathbf C = \mathbf V \mathbf L \mathbf V^\top,$

V

$\mathbf V$

L

$\mathbf L$

λ_{i}

$\lambda_i$ даних. Проекції даних на головні осі називаються основними компонентами , також відомими як оцінки ПК ; їх можна розглядати як нові, перетворені, змінні.

-го основного компонента задається

-го стовпця

. Координати

-й точка даних в новому просторі ПК задаються

-й рядком

j

$j$

j

$j$

X V

$\mathbf {XV}$

i

$i$

i

$i$

X V

$\mathbf{XV}$

Якщо ми зараз сингулярне розкладання значення , отримаємо розклад де - унітарна матриця, а - діагональна матриця сингулярних значень . Звідси легко видно, що $\mathbf X$

X = U S V^{⊤},

$\mathbf X = \mathbf U \mathbf S \mathbf V^\top,$

U

$\mathbf U$

S

$\mathbf S$

s_{i}

$s_i$

означає, що правильні сингулярні вектори

є основними напрямками і що сингулярні значення пов'язані з власними значеннями матриці коваріації через

. Основні компоненти задаються

C = V S U^{⊤} U S V^{⊤} / (n - 1) = V \frac{S^{2}}{n - 1} V^{⊤},

$\mathbf C = \mathbf V \mathbf S \mathbf U^\top \mathbf U \mathbf S \mathbf V^\top /(n-1) = \mathbf V \frac{\mathbf S^2}{n-1}\mathbf V^\top,$

V

$\mathbf V$

λ_{i} = s_{i}^{2} / (n - 1)

$\lambda_i = s_i^2/(n-1)$

X V = U S V^{⊤} V = U S

$\mathbf X \mathbf V = \mathbf U \mathbf S \mathbf V^\top \mathbf V = \mathbf U \mathbf S$

Узагальнити:

Якщо , то стовпці - основні напрямки / осі. $\mathbf X = \mathbf U \mathbf S \mathbf V^\top$ $\mathbf V$
Стовпці це основні компоненти ("бали"). $\mathbf {US}$
Сингулярні значення пов'язані з власними значеннями матриці коваріації через . Власні значення показую дисперсії відповідних ПК. $\lambda_i = s_i^2/(n-1)$ $\lambda_i$
Стандартизовані бали подаються стовпцями і навантаження задаються стовпцями $\sqrt{n-1}\mathbf U$ . Дивіться, наприклад,тутітут,чому "навантаження" не слід плутати з основними напрямками. $\mathbf V \mathbf S/\sqrt{n-1}$
Сказане вище правильне, лише якщо по центру розміщено $\mathbf X$ Тільки тоді матриця коваріації дорівнює . $\mathbf X^\top \mathbf X/(n-1)$
Сказане вище правильне лише для мають зразки у рядках та змінні у стовпцях. Якщо змінні знаходяться у рядках, а зразки - у стовпцях, то та обмінюються інтерпретаціями. $\mathbf X$ $\mathbf U$ $\mathbf V$
Якщо потрібно виконати PCA на кореляційній матриці (замість коваріаційної матриці), то стовпці повинні бути не лише центрировані, а й стандартизовані, тобто поділені на їх стандартні відхилення. $\mathbf X$
Щоб зменшити розмірність даних від до , виберіть перші стовпчики і верхня ліва частина . Їх добуток є необхідною матрицею що містить перші ПК. $p$ $k<p$ $k$ $\mathbf U$ $k\times k$ $\mathbf S$ $\mathbf U_k \mathbf S_k$ $n \times k$ $k$
$k$ $\mathbf V_k^\top$ $\mathbf X_k = \mathbf U_k^\vphantom \top \mathbf S_k^\vphantom \top \mathbf V_k^\top$ $n \times p$ $k$ $\mathbf X_k$ $k$
$\mathbf U$ $n\times n$ $\mathbf V$ $p \times p$ $n>p$ $n-p$ $\mathbf U$ $\mathbf S$ $\mathbf U$ $n\times p$ $n\gg p$ $\mathbf U$ $n\ll p$

Подальші посилання

Який інтуїтивний зв’язок між SVD та PCA - дуже популярна і дуже схожа нитка на math.SE.
Чому PCA даних за допомогою SVD даних? - обговорення того, у чому переваги виконання PCA через SVD [коротка відповідь: числова стабільність].
Аналіз PCA та кореспонденції у їхньому відношенні до Biplot - PCA в контексті деяких конгеніцидних методів, які базуються на SVD.
Чи є якась перевага SVD над PCA? - запитання, чи є якісь переваги у використанні SVD замість PCA [коротка відповідь: неправильне питання].
Ознайомлення з аналізом основних компонентів, власних векторів та власних значень - моя відповідь дає нетехнічне пояснення PCA. Щоб звернути увагу, я відтворюю одну фігуру тут:

— амеби
джерело

⟨ (x_{i} - \bar{x}) (x_{i} - \bar{x})^{⊤} ⟩

$\langle (\mathbf x_i - \bar{\mathbf x})(\mathbf x_i - \bar{\mathbf x})^\top \rangle$

x_{i}

$\mathbf x_i$

X

$\mathbf X$

(X - \bar{X}) (X - \bar{X})^{⊤} / (n - 1)

$(\mathbf X - \bar{\mathbf X})(\mathbf X - \bar{\mathbf X})^\top/(n-1)$

X

$\mathbf X$

X X^{⊤} / (n - 1)

$\mathbf X \mathbf X^\top/(n-1)$

⟨ (x_{i} - \bar{x})^{2} ⟩

$\langle (x_i-\bar x)^2 \rangle$

\bar{x} = 0

$\bar x=0$

x_{i}^{2}

$x_i^2$

Зразок коду для PCA від SVD: stackoverflow.com/questions/3181593/…

— оптиміст

Амеба, я взяв на себе відповідальність додати ще одне посилання відповідно до наданих вами посилань. Сподіваюсь, ви вважаєте це доречним.

— ttnphns

S

$S$

λ_{i} = s_{i}^{2}

$\lambda_i = s_i^2$

@sera Просто перенесіть свою матрицю і позбудьтесь своєї проблеми. Ви тільки заплутаєтесь в іншому випадку.

— амеба

Я написав фрагмент Python & Numpy, який супроводжує відповідь @ amoeba, і залишаю його тут, якщо він комусь корисний. Коментарі в основному взяті з відповіді @ amoeba.

import numpy as np
from numpy import linalg as la
np.random.seed(42)


def flip_signs(A, B):
    """
    utility function for resolving the sign ambiguity in SVD
    http://stats.stackexchange.com/q/34396/115202
    """
    signs = np.sign(A) * np.sign(B)
    return A, B * signs


# Let the data matrix X be of n x p size,
# where n is the number of samples and p is the number of variables
n, p = 5, 3
X = np.random.rand(n, p)
# Let us assume that it is centered
X -= np.mean(X, axis=0)

# the p x p covariance matrix
C = np.cov(X, rowvar=False)
print "C = \n", C
# C is a symmetric matrix and so it can be diagonalized:
l, principal_axes = la.eig(C)
# sort results wrt. eigenvalues
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
# the eigenvalues in decreasing order
print "l = \n", l
# a matrix of eigenvectors (each column is an eigenvector)
print "V = \n", principal_axes
# projections of X on the principal axes are called principal components
principal_components = X.dot(principal_axes)
print "Y = \n", principal_components

# we now perform singular value decomposition of X
# "economy size" (or "thin") SVD
U, s, Vt = la.svd(X, full_matrices=False)
V = Vt.T
S = np.diag(s)

# 1) then columns of V are principal directions/axes.
assert np.allclose(*flip_signs(V, principal_axes))

# 2) columns of US are principal components
assert np.allclose(*flip_signs(U.dot(S), principal_components))

# 3) singular values are related to the eigenvalues of covariance matrix
assert np.allclose((s ** 2) / (n - 1), l)

# 8) dimensionality reduction
k = 2
PC_k = principal_components[:, 0:k]
US_k = U[:, 0:k].dot(S[0:k, 0:k])
assert np.allclose(*flip_signs(PC_k, US_k))

# 10) we used "economy size" (or "thin") SVD
assert U.shape == (n, p)
assert S.shape == (p, p)
assert V.shape == (p, p)

— користувача115202
джерело

$\mu$ $x_i$

X = (\begin{array}{ccccc} x_{1}^{T} - μ^{T} \\ x_{2}^{T} - μ^{T} \\ ⋮ \\ x_{n}^{T} - μ^{T} \end{array}) .

$X = \left( \begin{array}{ccccc} && x_1^T - \mu^T && \\ \hline && x_2^T - \mu^T && \\ \hline && \vdots && \\ \hline && x_n^T - \mu^T && \end{array} \right)\,.$

Коваріаційна матриця

S = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - μ) (x_{i} - μ)^{T} = \frac{1}{n - 1} X^{T} X

$S = \frac{1}{n-1} \sum_{i=1}^n (x_i-\mu)(x_i-\mu)^T = \frac{1}{n-1} X^T X$

$S$

S = V Λ V^{T} = \sum_{i = 1}^{r} λ_{i} v_{i} v_{i}^{T},

$S = V \Lambda V^T = \sum_{i = 1}^r \lambda_i v_i v_i^T \,,$

$v_i$ $i$ $\lambda_i$ $i$ $S$ $i$

PCA випадково генерованого набору даних Гаусса

$A = \left( \begin{array}{cc}1&2\\0&1\end{array} \right)$ $u_i$ $v_i$

SVD для прикладу 2х2

$A$ $\mathbb S$ $u_i$ $v_i$

$X$ $A = X$

X = \sum_{i = 1}^{r} σ_{i} u_{i} v_{j}^{T},

$X = \sum_{i=1}^r \sigma_i u_i v_j^T\,,$

$\{ u_i \}$ $\{ v_i \}$ $S$ $v_i$

u_{i} = \frac{1}{\sqrt{(n - 1) λ_{i}}} X v_{i},

$u_i = \frac{1}{\sqrt{(n-1)\lambda_i}} Xv_i\,,$

$\sigma_i$

σ_{i}^{2} = (n - 1) λ_{i} .

$\sigma_i^2 = (n-1) \lambda_i\,.$

$u_i$ $X$ $u_i$ $X$ $i$ $v_i$ $X$

У цій більш довгій статті я детальніше описую переваги стосунків між PCA та SVD .

— Андре П
джерело

Дякуємо за ваш ансер Андре. Всього дві невеликі виправлення помилок: 1. В останньому абзаці ви плутаєте ліву і праву. 2. У формулі (капітал) для X ви використовуєте v_j замість v_i.

— Алон