Я намагаюся зрозуміти, як працює аналіз основних компонентів (PCA) у предметному (подвійному) просторі .
Розглянемо 2D набір даних з двома змінними, і , і точок даних (матриця даних дорівнює та передбачається центром). Звичайна презентація PCA полягає в тому, що ми розглядаємо точок у , записуємо матрицю коваріації та знаходимо її власні вектори & власні значення; Перший ПК відповідає напрямку максимальної дисперсії і т. д. Ось приклад з матрицею коваріації . Червоні лінії показують власні вектори, масштабовані квадратними коренями відповідних власних значень.
Тепер розглянемо, що відбувається в предметному просторі (цей термін я дізнався від @ttnphns), також відомий як подвійний простір (термін, який використовується в машинному навчанні). Це -вимірний простір, де зразки наших двох змінних (два стовпці ) утворюють два вектори та . Довжина квадрата кожного змінного вектора дорівнює його дисперсії, косинус кута між двома векторами дорівнює співвідношенню між ними. Це представлення, до речі, дуже стандартне в лікуванні множинної регресії. У моєму прикладі предметний простір виглядає так (я показую лише 2D площину, що охоплюється двома змінними векторами):
Основні компоненти, будучи лінійними комбінаціями двох змінних, утворюватимуть два вектори та в одній площині. Моє запитання: що таке геометричне розуміння / інтуїція того, як формувати основні компоненти змінних векторів за допомогою оригінальних змінних векторів на такому графіку? З огляду на та , яка геометрична процедура дасть ?
Нижче моє поточне часткове розуміння цього.
Перш за все, я можу обчислити основні компоненти / осі за допомогою стандартного методу та побудувати їх на одній фігурі:
Більше того, ми можемо зазначити, що вибирається таким, що сума квадратних відстаней між (синіми векторами) та їх проекціями на мінімальна; ці відстані є помилками відновлення, і вони показані чорними пунктирними лініями. Еквівалентно, максимізує суму квадратних довжин обох проекцій. Це повністю вказує і, звичайно, є повністю аналогічним аналогічному опису в первинному просторі (див. Анімацію у моїй відповіді на тему " Створення сенсу аналізу основних компонентів, власних векторів та власних значень" ). Дивіться також першу частину відповіді @ ttnphns'es тут .
Однак це недостатньо геометрично! Це не говорить мені, як знайти такий і не визначає його довжину.
Я здогадуюсь, що , , та лежать на одному еліпсі з центром у а та є його головними осями. Ось як це виглядає в моєму прикладі:
Q1: Як довести це? Пряма алгебраїчна демонстрація здається дуже нудною; як бачити, що це має бути так?
Але є багато різних еліпсів, що зосереджені на і проходять через та :
Q2: Що визначає "правильний" еліпс? Моя перша здогадка полягала в тому, що це еліпс із найдовшою можливою головною віссю; але здається, що це неправильно (є еліпси з головною віссю будь-якої довжини).
Якщо є відповіді на Q1 і Q2, я також хотів би знати, чи вони узагальнюють на випадок більш ніж двох змінних.
variable space (I borrowed this term from ttnphns)
- @amoeba, ти мусиш помилитися. Змінні як вектори в (спочатку) n-мірному просторі називають предметним простором (n предметів як осі "визначають" простір, тоді як p змінні "охоплюють" його). Змінний простір - навпаки, зворотний - тобто звичайний розсіювач. Так утверджується термінологія у багатовимірній статистиці. (Якщо в машинному навчанні це інакше - я цього не знаю - тоді так гірше це для учнів.)
My guess is that x1, x2, p1, p2 all lie on one ellipse
Якою може бути евристична допомога від еліпса? Я сумніваюся в цьому.