Яка норма помилки реконструкції мінімізована матрицею наближення низького рангу, отриманою за допомогою PCA?


26

З огляду на наближення PCA (або SVD) з матриці X з матрицею X , ми знаємо , що X є найкращим нізкоразрядним наближенням X .X^X^X

Це відповідно до індукованої норми 2 (тобто найбільшої норми власного значення) або відповідно до норми Frobenius F ?

Відповіді:


30

Відповідь на одне слово: Обидва.


Почнемо з визначення норм. Для матриці X оператор 2 -норм визначається як і норма Фробеніуса якXF=

X2=supXv2v2=max(si)
деsiє сингулярними значеннямиX, тобто діагональними елементамиSу розкладі сингулярного значенняX=USV.
XF=ijXij2=tr(XX)=si2,
siXSX=USV

PCA задається тим самим розкладанням сингулярного значення, коли дані центрируються. - основні компоненти, V - основні осі, тобто власні вектори матриці коваріації, а реконструкція X лише з k основними компонентами, що відповідають k найбільшим значенням сингулярності, задається X k = U k S k V k .USVXkkXk=UkSkVk

Еккарт-Young теорема стверджує , що є матрицею мінімізації норми похибки реконструкції | | X - серед всіх матриць А ранг до . Це справедливо як для норми Frobenius, так і для оператора 2 -norm. Як вказував @cardinal у коментарях, його вперше було доведено Шмідтом (про славу Грам-Шмідту) у 1907 р. Для справи Фробеніус. Пізніше її знову відкрили Екарт і Янг у 1936 році і тепер здебільшого асоціюється з їхніми іменами. Мірський узагальнив теорему в 1958 р. На всі норми, інваріантні під унітарними перетвореннями, і сюди входить оператор 2-норма.XkXAAk2

Цю теорему іноді називають теоремою Екарта-Юнга-Мірського. Стюарт (1993) називає це теоремою наближення Шмідта. Я навіть бачив це під назвою теорема Шмідта-Екарта-Янга-Мірського.


Доказ для оператора 2 -норм

Нехай має повний ранг n . Оскільки A є рангом k , його нульовий простір має n - k розмірів. Простір, що охоплюється k + 1 правильними сингулярними векторами X, що відповідають найбільшим сингулярним значенням, має k + 1 розміри. Тож ці два простори повинні перетинатися. Нехай w - одиничний вектор від перетину. Тоді отримуємо: X - A 2 2( X - A ) w 2XnAknkk+1Xk+1w

XA22(XA)w22=Xw22=i=1k+1si2(viw)2sk+12=XXk22,
QED.

Доказ норми Фробеніуса

Ми хочемо , щоб знайти матрицю рангу до , що зводить до мінімуму | | X - | | 2 F . Можна факторизувати A = B W , де W має k ортонормальних стовпців. Мінімізація Х - Б Ш 2 при фіксованому W є регресійної проблемою з розчином B = Х W . Підключивши його, ми бачимо, що тепер нам потрібно мінімізувати X - X W W AkXAF2A=BWWkXBW2WB=XW де Σ - матриця коваріації X , тобто Σ = X X / ( n - 1 ) . Це означає, що похибка реконструкції зводиться до мінімуму, беручи за стовпці W деякі k ортонормальних векторів, максимізуючи загальну дисперсію проекції.

XXWW2=X2XWW2=consttr(WWXXWW)=constconsttr(WΣW),
ΣXΣ=XX/(n1)Wk

Загальновідомо, що це перші власні вектори матриці коваріації. Дійсно, якщо X = U S V , то Σ = V S 2 V / ( n - 1 ) = V Λ V . Записуючи R = V W, який також має ортонормальні стовпці, отримуємо t r ( W Σ W ) = t r ( R Λ RkX=USVΣ=VS2V/(n1)=VΛVR=VW

tr(WΣW)=tr(RΛR)=iλijRij2i=1kλk,
W=Vk

Дивіться наступні три пов’язані теми:


Рання спроба доведення норми Фробеніуса

Цей доказ я знайшов десь в Інтернеті, але він неправильний (містить пробіл), як пояснив @cardinal у коментарях.

XAF=USVA=SUAV=SB,
B=UAV
XAF=ij(SijBij)2=i(siBii)2+ijBij2.
This is minimized when all off-diagonal elements of B are zero and all k diagonal terms cancel out the k largest singular values si [gap here: this is not obvious], i.e. Boptimal=Sk and hence Aoptimal=UkSkVk.

2
The proof in the case of the Frobeniius norm is not correct (or at least complete) since the argument here does not preclude the possibility that a matrix of the same rank could cancel out some of the other diagonal terms while having "small" off-diagonals. To see the gap more clearly note that holding the diagonals constant and "zeroing" the off-diagonals can often increase the rank of the matrix in question!
cardinal

1
Note also that the SVD was known to Beltrami (at least in a quite general, though special case) and Jordan as early as 1874.
cardinal

@cardinal: Hmmmm, I am not sure I see the gap. If B cancels out some other diagonal terms in S instead of k largest ones and has some nonzero off-diagonal terms instead, then both sums, i(siBii)2 and ijBij2, are going to increase. So it will only increase the reconstruction error. No? Still, I tried to find another proof for Frobenius norm in the literature, and have read that it should somehow follow easily from the operator norm case. But so far I don't see how it should follow...
amoeba says Reinstate Monica

3
I do like G. W. Stewart (1993), On the early history of the singular value decomposition, SIAM Review, vol. 35, no. 4, 551-566 and, given your prior demonstrated interest in historical matters, I think you will too. Unfortunately, I think Stewart is unintentionally overly dismissive of the elegance of Schmidt's 1907 proof. Hidden within it is a regression interpretation that Stewart overlooks and which is really quite pretty. There is another proof that follows the initial diagonalization approach you take, but which requires some extra work to fill the gap. (cont.)
cardinal

2
@cardinal: Yes, you are right, now I see the gap too. Thanks a lot for the Stewart paper, that was a very interesting read. I see that Stewart presents Schmidt's and Weyl's proofs, but both of them look more complicated than what I would like to copy here (and so far I have not had the time to study them carefully). I am surprised: I expected this to be a very simple result, but it seems it is less trivial than I thought. In particular, I would not have expected that the Frobenius case is so much more complicated than the operator norm one. I will edit the post now. Happy New Year!
amoeba says Reinstate Monica
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.