З огляду на наближення PCA (або SVD) з матриці з матрицею X , ми знаємо , що X є найкращим нізкоразрядним наближенням X .
Це відповідно до індукованої норми (тобто найбільшої норми власного значення) або відповідно до норми Frobenius ?
З огляду на наближення PCA (або SVD) з матриці з матрицею X , ми знаємо , що X є найкращим нізкоразрядним наближенням X .
Це відповідно до індукованої норми (тобто найбільшої норми власного значення) або відповідно до норми Frobenius ?
Відповіді:
Почнемо з визначення норм. Для матриці оператор -норм визначається як і норма Фробеніуса як‖X‖F=√
PCA задається тим самим розкладанням сингулярного значення, коли дані центрируються. - основні компоненти, V - основні осі, тобто власні вектори матриці коваріації, а реконструкція X лише з k основними компонентами, що відповідають k найбільшим значенням сингулярності, задається X k = U k S k V ⊤ k .
Еккарт-Young теорема стверджує , що є матрицею мінімізації норми похибки реконструкції | | X - ‖ серед всіх матриць А ранг до . Це справедливо як для норми Frobenius, так і для оператора 2 -norm. Як вказував @cardinal у коментарях, його вперше було доведено Шмідтом (про славу Грам-Шмідту) у 1907 р. Для справи Фробеніус. Пізніше її знову відкрили Екарт і Янг у 1936 році і тепер здебільшого асоціюється з їхніми іменами. Мірський узагальнив теорему в 1958 р. На всі норми, інваріантні під унітарними перетвореннями, і сюди входить оператор 2-норма.
Цю теорему іноді називають теоремою Екарта-Юнга-Мірського. Стюарт (1993) називає це теоремою наближення Шмідта. Я навіть бачив це під назвою теорема Шмідта-Екарта-Янга-Мірського.
Нехай має повний ранг n . Оскільки A є рангом k , його нульовий простір має n - k розмірів. Простір, що охоплюється k + 1 правильними сингулярними векторами X, що відповідають найбільшим сингулярним значенням, має k + 1 розміри. Тож ці два простори повинні перетинатися. Нехай w - одиничний вектор від перетину. Тоді отримуємо: ‖ X - A ‖ 2 2 ≥ ‖ ( X - A ) w ‖ 2
Ми хочемо , щоб знайти матрицю рангу до , що зводить до мінімуму | | X - | | 2 F . Можна факторизувати A = B W ⊤ , де W має k ортонормальних стовпців. Мінімізація ‖ Х - Б Ш ⊤ ‖ 2 при фіксованому W є регресійної проблемою з розчином B = Х W . Підключивши його, ми бачимо, що тепер нам потрібно мінімізувати ‖ X - X W W ⊤ де Σ - матриця коваріації X , тобто Σ = X ⊤ X / ( n - 1 ) . Це означає, що похибка реконструкції зводиться до мінімуму, беручи за стовпці W деякі k ортонормальних векторів, максимізуючи загальну дисперсію проекції.
Загальновідомо, що це перші власні вектори матриці коваріації. Дійсно, якщо X = U S V ⊤ , то Σ = V S 2 V ⊤ / ( n - 1 ) = V Λ V ⊤ . Записуючи R = V ⊤ W, який також має ортонормальні стовпці, отримуємо t r ( W ⊤ Σ W ) = t r ( R ⊤ Λ R
Дивіться наступні три пов’язані теми:
Цей доказ я знайшов десь в Інтернеті, але він неправильний (містить пробіл), як пояснив @cardinal у коментарях.