Чому PCA максимізує загальну дисперсію проекції?

Крістофер Бішоп пише у своїй книзі Розпізнавання візерунків та машинне навчання доказом того, що кожен послідовний головний компонент максимізує дисперсію проекції до одного виміру після того, як дані проектуються в ортогональний простір до вибраних раніше компонентів. Інші демонструють подібні докази.

Однак це лише доводить, що кожна послідовна складова є найкращою проекцією на один вимір, з точки зору максимізації дисперсії. Чому це означає, що варіація проекції на 5 розмірів максимально вибирається, вибираючи спочатку такі компоненти?

— міхаль
джерело

Не могли б ви сказати нам, що саме означатиме "дисперсія" п'ятивимірного набору даних, що є результатом проектування набору даних на п'ять вимірів? (Для того, щоб така кількість підлягала максимізації, це повинно бути єдиним числом.)

— whuber

Дуже хороший момент. Кріс Бішоп у своїй книзі посилається на мінімізацію дисперсії проекції, і не дуже зрозуміло, що це означатиме для більше 1 виміру. Я хотів би дізнатися, в якому сенсі зменшується дисперсія і чому така процедура мінімізує її спільно.

— michal

@ user123675: В останньому коментарі ви, мабуть, маєте на увазі "максимізацію", а не "мінімізацію".

— амеба

Так, ти правий. Вибачте!

— michal

Відповіді:

Те, що розуміється під дисперсією в кількох вимірах ("загальна дисперсія") - це просто сума дисперсій у кожному вимірі. Математично це слід матриці коваріації: слід - це просто сума всіх діагональних елементів. Це визначення має різні приємні властивості, наприклад, слід є інваріантним при ортогональних лінійних перетвореннях, що означає, що якщо ви обертаєте осі координат, загальна дисперсія залишатиметься однаковою.

Те, що доведено в книзі Бішопа (розділ 12.1.1), - це те, що провідний власний вектор матриці коваріації дає напрям максимальної дисперсії. Другий власний вектор дає напрям максимальної дисперсії при додатковому обмеженні, що він повинен бути ортогональним для першого власного вектора тощо (я вважаю, що це є вправою 12.1). Якщо мета - максимізувати загальну дисперсію в підпросторі 2D, то ця процедура є жадібним максимізацією: спочатку вибирайте одну вісь, яка максимізує дисперсію, потім іншу.

Ваше запитання: чому ця жадібна процедура отримує глобальний максимум?

Ось приємний аргумент, який @whuber запропонував у коментарях. Давайте спочатку вирівняємо систему координат з осями PCA. Матриця коваріації стає діагональною: . Для простоти ми розглянемо той самий 2D випадок, тобто яка площина з максимальною сумарною дисперсією? Ми хочемо довести, що це площина, задана першими двома векторами (із сумарною дисперсією $\boldsymbol{\Sigma} = \mathrm{diag}(\lambda_i)$ $\lambda_1+\lambda_2$ ).

Розглянемо площину, що перетинається двома ортогональними векторами і . Загальна дисперсія в цій площині дорівнюєОтже, це лінійна комбінація власних значень з коефіцієнтами, які є позитивними, не перевищують (див. Нижче), а сумують до . Якщо так, то майже очевидно, що максимум досягнуто в . $\mathbf{u}$ $\mathbf{v}$

u^{⊤} Σ u + v^{⊤} Σ v = \sum λ_{i} u_{i}^{2} + \sum λ_{i} v_{i}^{2} = \sum λ_{i} (u_{i}^{2} + v_{i}^{2}) .

$\mathbf{u}^\top\boldsymbol{\Sigma}\mathbf{u} + \mathbf{v}^\top\boldsymbol{\Sigma}\mathbf{v} = \sum \lambda_i u_i^2 + \sum \lambda_i v_i^2 = \sum \lambda_i (u_i^2+v_i^2).$

λ_{i}

$\lambda_i$

1

$1$

2

$2$

λ_{1} + λ_{2}

$\lambda_1 + \lambda_2$

Залишилося лише показати, що коефіцієнти не можуть перевищувати . Зауважте, що , де - -й базовий вектор. Ця величина є довжиною квадрата проекції на площину, що охоплюється та . Тому вона повинна бути меншою за довжину квадрата яка дорівнює , QED. $1$ $u_k^2+v_k^2 = (\mathbf{u}\cdot\mathbf{k})^2+(\mathbf{v}\cdot\mathbf{k})^2$ $\mathbf{k}$ $k$ $\mathbf k$ $\mathbf u$ $\mathbf v$ $\mathbf k$ $|\mathbf{k}|^2=1$

Дивіться також відповідь @ кардинала на те, яка об'єктивна функція PCA? (випливає за тією ж логікою).

— амеби
джерело

(+1) Але це не інтуїтивно очевидно , що даний набір гаманців різних сум готівки (моделювання невід'ємних власних значень), і фіксований число , що ви можете вибрати, що вибираючи багатющі гаманець будуть максимізувати загальний готівкою? Доказ того, що ця інтуїція правильна, майже банальний: якщо ви не взяли найбільшу , ви можете покращити свою суму, обмінявши найменший, який ви взяли на більшу суму.

k

$k$

k

$k$

k

$k$

— whuber

@amoeba: якщо метою є максимізація суми дисперсій, а не дисперсія суми, немає причин, щоб друга проекція була ортогональною до першої.

— Іннуо

Прошу вибачення - я думав, що ви вже розробили аналіз до того, що визнаєте, що загальна дисперсія в -вимірному підпросторі є негативною лінійною комбінацією власних значень, в якій жоден з коефіцієнтів не може перевищувати і загальна кількість коефіцієнтів дорівнює . (Це питання простого множення матриць - множники Лагранжа не потрібні.) Потім це приводить нас до метафори гаманців. Я погоджуюся з тим, що треба зробити такий аналіз.

k

$k$

1

$1$

k

$k$

— whuber

@amoeba: Я маю на увазі, що ми розглядаємо задачу в базі, що складається з власних векторів (це основа u і v, якщо обчислити їх дисперсію шляхом множення на діагональну матрицю коваріації). u і v зрештою виявляться ними, але на етапі цього доказу ми не повинні вважати цього. Чи не слід аргументувати, що якщо в будь-який момент сума була більшою за 1, то два вектори більше не будуть ортогональними, оскільки основа є ортогональною, і кожен з векторів приносить максимум 1? Але знову ж таки, чому ми обмежуємося ортогональними векторами u і v?

— michal

@Heisenberg: Ах, бачу! Ні, я, звичайно, цього не мав на увазі! Але я зараз бачу, чому це було заплутано. Я переписав цей останній доказ, щоб позбутися цього кроку "вибору основи". Будь ласка, дивіться мою редакцію. Дякую.

— амеба

Якщо у вас є некоррельованих випадкових величин, відсортованих у порядку зменшення їх дисперсії, і вам запропонували вибрати з них таким чином, щоб дисперсія їх суми була максимальною, чи погоджуєтесь ви, що жадібний підхід до вибору першого це досяг? $N$ $k$ $k$

Дані, запроектовані на власні вектори його матриці коваріації, по суті є $N$ некоррельованими стовпцями даних, дисперсія яких дорівнює відповідним власним значенням.

Щоб інтуїція була більш зрозумілою, нам потрібно пов'язати максимізацію дисперсії з обчисленням власного вектора матриці коваріації з найбільшою власною величиною, а ортогональну проекцію відновити до вилучення кореляцій.

Друге відношення мені зрозуміло, оскільки коефіцієнт кореляції між двома (нульовим середнім) вектором пропорційний їхньому внутрішньому добутку.

Співвідношення між максимальною дисперсією та власним розкладом коваріаційної матриці є наступним.

Припустимо, що - матриця даних після центрування стовпців. Нам потрібно знайти напрямок максимальної дисперсії. Для будь-якого одиничного вектора , дисперсія після проектування вздовж $D$ $v$ $v$ є

$E[(Dv)^t Dv] = v^t E[D^tD] v = v^t Cov(D) v$

який максимізується, якщо - власний вектор відповідає найбільшому власного значення. $v$ $Cov(D)$

— Іннуо
джерело

Вихідне питання швидше: вибирайте ортогональних лінійних комбінацій (на відміну від з них) таким чином, щоб сума їх дисперсій була максимальною. Чи все ж очевидно, що жадібний підхід до вибору першого досягає цього?

k

$k$

k

$k$

k

$k$

— амеба

Пошук ортогональних лінійних комбінацій, а потім вибір першого найбільш варіанту з них - це те, що процес описує (нещільно). Моя відповідь просто стверджує, що ортогональність - це те, що достатньо для жадібного процесу досягти мети максимізації загальної дисперсії.

N

$N$

k

$k$

— Іннуо

Я не впевнений, що я слідую за аргументом. Яке значення має ортогональність? Якщо у вас змінних і вибираєте з найбільшою сумарною дисперсією, вибирайте з найбільшою дисперсією (незалежно від того, вони співвідносяться чи ні).

N

$N$

k

$k$

k

$k$

— амеба

Ах, я розумію плутанину. У моїй відповіді була помилка друку. Виправлено зараз.

— Іннуо

Я думаю, що ви можете щось тут, але магічний вигляд суми потребує пояснення. Яке значення має PCA або навіть спектральна декомпозиція?

— whuber