Як уявити, що робить канонічний кореляційний аналіз (порівняно з тим, що робить аналіз основних компонентів)?


70

Канонічний кореляційний аналіз (CCA) - це техніка, що стосується аналізу основних компонентів (PCA). Хоча легко навчити PCA або лінійну регресію за допомогою діаграми розкидання (див. Кілька тисяч прикладів пошуку зображень google), я не бачив подібного інтуїтивного двовимірного прикладу для CCA. Як наочно пояснити, що робить лінійна CCA?


1
Яким чином CCA узагальнює PCA? Я б не сказав, що це його узагальнення. PCA працює з одним набором змінних, CCA працює з двома (або більше, сучасними реалізаціями), і це головна відмінність.
ttnphns

2
Ну, строго кажучи , родинним може бути кращим вибором слова. У всякому разі, PCA працює на коваріаційній матриці, а CCA - на матриці перехресної коваріації. Якщо у вас є лише один набір даних, обчислення його перехресних коваріацій відносно себе закінчується до більш простого випадку (PCA).
цифра

4
Ну так, "споріднене" краще. CCA враховує як коваріації, так і кро-коваріації.
ttnphns

1
Деякі запропонували візуалізувати канонічні кореляції за допомогою геліографів. Ви можете прочитати статтю ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf

Відповіді:


97

Ну, я думаю, що насправді важко представити візуальне пояснення канонічного кореляційного аналізу (CCA) щодо аналізу основних компонентів (PCA) або лінійної регресії . Останні два часто пояснюються та порівнюються за допомогою 2D або 3D-розсіювачів даних, але я сумніваюся, чи це можливо з CCA. Нижче я намалював фотографії, які могли б пояснити суть та відмінності трьох процедур, але навіть із цими зображеннями, які є векторними уявленнями у "предметному просторі", виникають проблеми з адекватним захопленням CCA. (Для алгебри / алгоритму канонічного кореляційного аналізу дивіться тут .)

Малювання індивідів як точок у просторі, де осі є змінними, звичайний розсіювач, є змінним простором . Якщо ви намалюєте зворотний шлях - змінні як точки, а особи як осі - це буде предметний простір . Малювати безліч осей насправді непотрібно, оскільки простір має кількість зайвих розмірів, що дорівнює кількості неколінеарних змінних. Змінні точки пов'язані з походженням і утворюють вектори, стрілки, що охоплюють предметний простір; так ось ми ( див. також ). У предметному просторі, якщо змінні були по центру, косинус кута між їх векторами є співвідношенням Пірсона між ними, а довжини векторів у квадраті - це їх відхилення. На малюнках нижче відображуваних змінних по центру (немає потреби в постійній).

Основні компоненти

введіть тут опис зображення

Змінні і позитивно співвідносяться: між ними гострий кут. Основні компоненти і лежать в одному просторі "площини X", що охоплюється двома змінними. Компоненти теж є змінними, лише взаємно ортогональними (некорельовані). Напрямок такий, що дозволяє отримати максимум суми двох навантажень у квадраті цього компонента; і , що залишився компонент, йде ортогонально до у площині X. Довжина квадрата всіх чотирьох векторів є їх різницею (дисперсія компонента - це згадана вище сума його навантажень у квадраті). Навантаження компонентів - це координати змінних на компоненти -X1X2P1P2P1P2P1aпоказано на малюнку зліва. Кожна змінна є лінійною комбінацією двох компонентів, що не мають помилок, при цьому відповідні навантаження є коефіцієнтами регресії. І навпаки , кожен компонент є лінійною комбінацією двох змінних, що не мають помилок; коефіцієнти регресії в цій комбінації задаються похилими координатами компонентів на змінних - , показаних на правій малюнку. Фактична величина коефіцієнта регресії буде поділена на добуток довжин (стандартних відхилень) передбачуваної складової та прогнозної змінної, наприклад, . [Зноска: значення компонентів, що з'являються у згаданих вище двох лінійних комбінаціях, є стандартизованими значеннями, ст. дев.bbb12/(|P1||X2|)= 1. Це тому, що інформація про їх відхилення вловлюється навантаженнями . Якщо говорити з приводу нестандартних значень компонентів, на малюнку вище повинні бути значення власних векторів , решта міркувань - однакові.]a

Множинна регресія

введіть тут опис зображення

Якщо в PCA все лежить у площині X, при множинній регресії з'являється залежна змінна яка зазвичай не належить площині X, простір предикторів , . Але перпендикулярно проектується на площину X, а проекція , відтінок , є передбаченням двох ліній або лінійною комбінацією . На малюнку довжина квадрата - відхилення помилки. Косинус між і - коефіцієнт множинної кореляції. Як і в PCA, коефіцієнти регресії задаються косими координатами прогнозування (YX1X2YYYXeYYY) на змінні - 's. Фактична величина коефіцієнта регресії буде поділена на довжину (стандартне відхилення) змінної предиктора, наприклад,.bbb2/|X2|

Канонічна кореляція

У PCA набір змінних прогнозує себе: вони моделюють основні компоненти, які, в свою чергу, моделюють змінні, ви не залишаєте місця передбачувачів і (якщо ви використовуєте всі компоненти) прогнозування не буде помилок. При множинній регресії набір змінних прогнозує одну сторонній змінну, і тому існує деяка помилка передбачення. У CCA ситуація схожа на ситуацію в регресії, але (1) сторонні змінні множинні, утворюючи власний набір; (2) два набори прогнозують один одного (отже, кореляція, а не регресія); (3) те, що вони прогнозують один в одному, є скоріше витягом, прихованою змінною, ніж спостережуване передбачення регресії ( див. Також ).

введіть тут опис зображення

другий набір змінних і щоб канонічно співвіднести наш набірУ нас є простори - тут, площини - X і Y. Слід зазначити, що для того, щоб ситуація була нетривіальною - як це було вище при регресії, де виділяється з площини X - площини X і Y повинні перетинатися лише в одній точці, походження. На жаль, малювати на папері неможливо, оскільки 4D-презентація необхідна. У будь-якому випадку сіра стрілка вказує на те, що два джерела - одна точка, і єдина, що ділиться двома площинами. Якщо це зробити, решта зображення нагадує те, що було з регресією. іY1Y2XYVxVy- пара канонічних змінних. Кожна канонічна змінна є лінійною комбінацією відповідних змінних, як . - ортогональна проекція на площину X. Тут - проекція на площину X і одночасно - це проекція на площину Y, але вони не є ортогональними проекціями. Натомість їх знаходять (витягують), щоб мінімізувати кут між нимиYYYVxVyVyVx ϕ X Y X 1 X 2 Y 1 Y 2 V x ( 2 ) V xϕ. Косинус цього кута є канонічним співвідношенням. Оскільки проекції не повинні бути ортогональними, довжини (отже, варіації) канонічних змінних не визначаються автоматично алгоритмом підгонки і підпадають під дію умовних обмежень, які можуть відрізнятися в різних реалізаціях. Кількість пар канонічних змінних (а отже, і кількість канонічних кореляцій) мінімальна (число s, кількість s). І ось настає час, коли CCA нагадує PCA. У PCA ви знежирюєте взаємно ортогональні головні компоненти (ніби) рекурсивно, поки не буде вичерпана вся багатовимірна мінливість. Аналогічно, у CCA взаємно ортогональні пари максимально корельованих змінних витягуються до тих пір, поки не може бути передбачена вся багатоваріантна мінливість, яку можна передбачитиXYX1 X2Y1 Y2Vx(2)VxVy(2)Vy

Про різницю між регресією CCA і PCA + див. Також " Проведення CCA проти побудови залежної змінної з PCA", а потім "регресія" .


3
+1 (від днів тому). Я дуже сподіваюсь, що ви закінчите більше ніж 6 нагород за це; це дійсно чудовий огляд того, як працює CCA.
gung

2
Це мені дуже допомагає в розумінні CCA.
Zhenglei

@Glen_b, я здивувався, настільки зрадів, що ти вирішив нагородити цю відповідь.
ttnphns

1
@ttnphns, чудовий. Незважаючи на те, що я не все зрозумів, це, безумовно, найкраще пояснення CCA, який я натрапив. І я думаю, що насправді важливо зробити наочне уявлення про те, що відбувається, оскільки я знаю, що запам’ятаю щось, якщо зможу візуалізувати це, на відміну від вигулу через різні теореми.
Крістіан

P1X1X2

2

Мені було дуже корисно прочитати в книзі С. Мулайка «Основи фактораналізу» (1972) про те, що існує метод суто обертів матриці факторних навантажень, щоб дійти до канонічної кореляції, тому я міг знайти це в тому ансамблі концепцій, які я вже зрозумів досі від аналізу основних компонентів та факторного аналізу.

Можливо, вас зацікавив цей приклад (який я відновив із першого впровадження / обговорення близько 1998 року лише пару днів тому, щоб перехрестити і повторно перевірити метод на обчислення методом SPSS). Дивіться тут . Я використовую свою малу матрицю / pca-інструменти Inside-[R]і Matmateдля цього, але думаю, що її можна реконструювати Rбез зайвих зусиль.


2

Ця відповідь не надає наочної допомоги для розуміння CCA, однак хороша геометрична інтерпретація CCA представлена ​​в главі 12 Anderson-1958 [1]. Суть її полягає в наступному:

Nx1,x2,...,xNpXp×NxiXp(N1)p1p2x1,...,xp1p2xp1+1,...,xp

Я вважаю цю перспективу цікавою з цих причин:

  • Він надає цікаву геометричну інтерпретацію записів канонічних змінних CCA.
  • Коефіцієнти кореляції пов'язані з кутом між двома проекціями CCA.
  • p1Np2N(N1)N

p1p2

(N1)Nmean(xi)=0

[1] Андерсон, Т. В. Вступ до багатоваріантного статистичного аналізу. Вип. 2. Нью-Йорк: Вілі, 1958.


1
Чи можете ви додати фотографії з цієї книги, щоб візуалізувати відповідь?
ttnphns

На жаль, у книзі немає зображень для цієї глави (адже я не думаю, що у всій книзі є фігури).
іднавід

@ttnphns інший день я провів деякий час і зібрав невеликий приклад, щоб проілюструвати цю точку. Дякую за пропозицію!
іднавід

1

Найкращий спосіб викладати статистику - це дані. Багатоваріантні статистичні методи часто ускладнюються матрицями, які не є інтуїтивно зрозумілими. Я б пояснив CCA за допомогою Excel. Створіть два зразки, додайте нові змінні (в основному стовпці) та покажіть обчислення. Що стосується побудови матриці CCA, найкращий спосіб - це спочатку навчитись з двовимірним випадком, а потім розширити його.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.