Яка об’єктивна функція PCA?


42

Аналіз основних компонентів може використовувати матричне розкладання, але це лише інструмент для того, щоб потрапити.

Як би ви знайшли основні компоненти без використання матричної алгебри?

Що таке об'єктивна функція (мета) та які обмеження?


1
Можливо, мені щось не вистачає, тому, будь ласка, виправте мене, якщо я помиляюся, але це повинно бути можливо (принаймні в принципі) побудувати те, що робиться в PCA, використовуючи матриці як (складну) лінійну програмування, але я не знайте, як би ви вказали всі необхідні обмеження. Також я не впевнений, що це було б дуже просто зробити в порівнянні з просто використанням PCA. Чому ви намагаєтесь уникати матриць?
Кріс Сімокат

@Chris Я не бачу, як можна дістатись до проблеми лінійного програмування. Я також не розумів, що слід уникати матриць при обчисленні . Питання полягало в тому, яку проблему вирішує PCA, а не так, як це робиться (наприклад, шляхом обчислення SVD). Кардинал вирішує, що ви знаходите послідовні ортогональні напрямки максимальної дисперсії . Я представив рішення, що ви знаходите гіперплани з мінімальною помилкою відновлення.
NRH

@chris Я сподіваюся знайти інший спосіб перегляду PCA без алгебри матриці, щоб посилити моє розуміння цього.
Ніл МакГуйган

1
@Chris, у вас є квадратична цільова функція та обмеження рівності норми. Крім того, під формулюванням у відповіді @ NRH у вас є обмеження рангової матриці. Це не збирається зводити себе до проблеми лінійного програмування. @NRH дає добру інтуїцію, і насправді існує дуже тісний зв’язок між двома перспективами PCA, які були надані. Можливо, у співпраці з @NRH, ми можемо додати це до своєї посади, щоб зробити повний набір відповідей більш повним. 2
кардинал

1
@NRH, Насправді мені дуже подобається ESL , але я вважаю, що лікування цієї теми є досить поверхневим, як і для багатьох тем у книзі. Зокрема, вони не доводять (або навіть призначають як вправу) важливу частину рішення для задачі оптимізації, яку ви даєте.
кардинал

Відповіді:


41

Не намагаючись дати повний праймер на PCA, з точки зору оптимізації, основна мета функції - коефіцієнт Релея . Матриця, що зображує в коефіцієнті, є (деяким кратним) матриці коваріації вибірки , де кожен є вектор функцій і є матрицею , так що й рядки є .

S=1ni=1nxixiT=XTX/n
xipXixiT

PCA прагне вирішити послідовність проблем оптимізації. Перша в послідовності - необмежена проблема

maximizeuTSuuTu,uRp.

Оскільки, наведена вище необмежена проблема еквівалентна обмеженій задачі uTu=u22=uu

maximizeuTSusubject touTu=1.

Ось, звідки надходить алгебра матриці. Оскільки є симетричною позитивною напівфінітною матрицею (за побудовою!), Вона має власнезначне розкладання виду де - ортогональна матриця (так ) і - діагональна матриця з негативними записами така, що .S

S=QΛQT,
QQQT=IΛλiλ1λ2λp0

Отже, . Оскільки обмежена в задачі мати норму одиниці, то так і оскільки , в силу того, що є ортогональними.uTSu=uTQΛQTu=wTΛw=i=1pλiwi2uww2=QTu2=u2=1Q

Але, якщо ми хочемо максимально збільшити кількість при обмеженнях, що , то найкраще, що ми можемо зробити, - це встановити , тобто і для .i=1pλiwi2i=1pwi2=1w=e1w1=1wi=0i>1

Тепер, підтримуючи відповідне , що ми шукали в першу чергу, отримуємо, що де позначає перший стовпець , тобто власний вектор , що відповідає найбільшого власного значення . Значення цільової функції також легко видно .u

u=Qe1=q1
q1QSλ1

Решта основних векторів компонентів потім знаходять шляхом вирішення послідовності (індексованої ) задач на оптимізацію Отже, проблема однакова, за винятком того, що ми додаємо додаткове обмеження, що рішення має бути ортогональним для всіх попередніх рішень у послідовності. Це не важко розширити аргумент вище индуктивно , щоб показати , що рішення - го проблема, на самому ділі, , тим й власний вектор .i

maximizeuiTSuisubject touiTui=1uiTuj=01j<i.
iqiiS

Рішення РСА також часто виражаються в термінах сингулярного розкладання в . Щоб зрозуміти , чому, нехай . Тоді і так (строго кажучи, до підписання фліп) і .XX=UDVTnS=XTX=VD2VTV=QΛ=D2/n

Основні компоненти знаходять, проектуючи на вектори основних компонентів. З щойно даної формулировки SVD видно, що X

XQ=XV=UDVTV=UD.

Простота представлення як основних компонентів векторів, так і самих головних компонентів з точки зору SVD матриці ознак є однією з причин того, що особливості SVD настільки помітні в деяких методах лікування PCA.


Якщо потрібні лише перші кілька сингулярних значень / векторів, Неш і Шліен дають алгоритм, що нагадує звичайний метод потужності для обчислення домінуючих власних значень. Це може зацікавити ОП.
JM не є статистиком

@NRH, Дякую, що вловив (і виправив) мої помилки перед тим, як мені вдалося їх побачити!
кардинал

1
Привіт @cardinal, дякую за відповідь. Але, схоже, ви не дали кроку доведення, чому послідовна оптимізація призводить до глобального оптимуму. Чи можете ви детальніше розібратися в цьому? Дякую!
Ліфу Хуанг

21

Рішення, представлене кардиналом, фокусується на матриці коваріації зразка. Інша відправна точка - помилка відновлення даних за допомогою q -вимірної гіперплани. Якщо p -вимірні точки даних є це потрібно вирішитиx1,,xn

minμ,λ1,,λn,Vqi=1n||xiμVqλi||2

для матриці з ортонормальними стовпцями та . Це дає найкращу реконструкцію q- реконструкції, виміряну евклідовою нормою, і стовпці рішення є першими q основними компонентами векторів.p×qVqλiRqVq

Для фіксованих рішенням для та (це регресія) є Vqμλi

μ=x¯=1ni=1nxiλi=VqT(xix¯)

Для зручності нотації припустимо, що були зосереджені в наступних обчисленнях. Тоді нам доведеться мінімізувати xi

i=1n||xiVqVqTxi||2

над з ортонормальними стовпцями. Зверніть увагу, що - проекція на q -вимірний простір стовпців. Отже, задача еквівалентна мінімізації над рангом Q проекцій . Тобто нам потрібно максимізувати над рангом q проекцій , де - матриця вибіркової коваріації. ТеперVqP=VqVqT

i=1n||xiPxi||2=i=1n||xi||2i=1n||Pxi||2
P
i=1n||Pxi||2=i=1nxiTPxi=tr(Pi=1nxixiT)=ntr(PS)
PS
tr(PS)=tr(VqTSVq)=i=1quiTSui
де - (ортонормальні) у , а аргументи, представлені у відповіді @ кардинала, показують, що максимум отримується, приймаючи ' s бути власними векторами для з найбільшими власними значеннями.u1,,uqqVquiqSq

Помилка реконструкції передбачає ряд корисних узагальнень, наприклад, рідкісні головні компоненти або реконструкції низькомірними колекторами замість гіперпланів. Докладніше див. Розділ 14.5 в Елементах статистичного навчання .


(+1) Хороші бали. Деякі пропозиції: Було б добре визначити і було б дуже приємно дати короткий доказ результату. Або, як альтернативу, це може бути пов'язано з проблемою оптимізації, що включає коефіцієнти Rayleight. Я думаю, що це зробить відповіді на це запитання дуже повними! λi
кардинал

@cardinal, я вважаю, що я завершив пропущені кроки у переході від формули реконструкції до вирішеної проблеми.
NRH

Хороша робота. Я вважаю, що єдиний пробіл у вашій останній заяві. Не відразу видно, що оптимізація суми - це те саме, що виконання послідовності оптимізацій у моїй відповіді. Насправді, я не думаю, що це випливає безпосередньо, загалом. Але і цього не потрібно вирішувати.
кардинал

@cardinal, це випливає з індукції. Ви надаєте індукційний запуск, а на етапі індукції вибираєте ортонормальні вектори які максимізують суму, і упорядковують її так, щоб був одиничним вектором, ортогональним . Тоді за вашими результатами та за припущенням індукції . Звичайно, основа не є унікальною основою для -вимірного простору. Ви також можете узагальнити "аргумент опуклої комбінації", який ви використовуєте для прямого доведення. w1,,wqwqu1,,uq1wqTSwquqTSuqi=1q1wiTSwii=1q1uiTSuiq
NRH

1
@cardinal, я не змушую гніздовитись, просто використовую міркування про розмірність. Якщо у нас є -вимірний підпростір, ви завжди можете вибрати в цьому просторі таким чином, щоб він був ортогональним для -вимірного підпростору. Потім ви заповнюєте -базу будь-яким способом, який вам подобається. qwq(q1)w
NRH

4

Дивіться NIPALS ( wiki ) щодо одного алгоритму, який явно не використовує матричне розкладання. Я припускаю, що це ви маєте на увазі, коли ви говорите, що хочете уникнути матричної алгебри, оскільки ви дійсно не можете уникнути матричної алгебри тут :)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.