Те, що розуміється під дисперсією в кількох вимірах ("загальна дисперсія") - це просто сума дисперсій у кожному вимірі. Математично це слід матриці коваріації: слід - це просто сума всіх діагональних елементів. Це визначення має різні приємні властивості, наприклад, слід є інваріантним при ортогональних лінійних перетвореннях, що означає, що якщо ви обертаєте осі координат, загальна дисперсія залишатиметься однаковою.
Те, що доведено в книзі Бішопа (розділ 12.1.1), - це те, що провідний власний вектор матриці коваріації дає напрям максимальної дисперсії. Другий власний вектор дає напрям максимальної дисперсії при додатковому обмеженні, що він повинен бути ортогональним для першого власного вектора тощо (я вважаю, що це є вправою 12.1). Якщо мета - максимізувати загальну дисперсію в підпросторі 2D, то ця процедура є жадібним максимізацією: спочатку вибирайте одну вісь, яка максимізує дисперсію, потім іншу.
Ваше запитання: чому ця жадібна процедура отримує глобальний максимум?
Ось приємний аргумент, який @whuber запропонував у коментарях. Давайте спочатку вирівняємо систему координат з осями PCA. Матриця коваріації стає діагональною: . Для простоти ми розглянемо той самий 2D випадок, тобто яка площина з максимальною сумарною дисперсією? Ми хочемо довести, що це площина, задана першими двома векторами (із сумарною дисперсієюΣ = d i a g (λi)λ1+λ2 ).
Розглянемо площину, що перетинається двома ортогональними векторами і . Загальна дисперсія в цій площині дорівнюєОтже, це лінійна комбінація власних значень з коефіцієнтами, які є позитивними, не перевищують (див. Нижче), а сумують до . Якщо так, то майже очевидно, що максимум досягнуто в .уv
у⊤Σ u +v⊤Σ v = ∑λiу2i+ ∑λiv2i= ∑λi(у2i+v2i) .
λi12λ1+λ2
Залишилося лише показати, що коефіцієнти не можуть перевищувати . Зауважте, що , де - -й базовий вектор. Ця величина є довжиною квадрата проекції на площину, що охоплюється та . Тому вона повинна бути меншою за довжину квадрата яка дорівнює , QED.1у2к+v2к= ( u ⋅ k)2+ ( v ⋅ k)2кккуvк| к|2= 1
Дивіться також відповідь @ кардинала на те, яка об'єктивна функція PCA? (випливає за тією ж логікою).