Пояснення схеми завантаження PCA або факторного аналізу.
Графік завантаження показує змінні у вигляді точок у просторі основних компонентів (або факторів). Координати змінних, як правило, є навантаженнями. (Якщо ви правильно комбінуєте завантажувальну ділянку з відповідним розсипом випадків даних в одному просторі компонентів, це було б біплот.)
Давайте-як - то корелюють змінні, , W , U . Ми центруємо їх і виконуємо PCA , витягуючи з перших 2 основних компоненти з трьох: F 1 і F 2 . Ми використовуємо навантаження як координати, щоб зробити графік завантаження нижче. Навантаження - це нестандартні елементи власних векторів, тобто власні вектори, наділені відповідними відхиленнями компонентів, або власними значеннями.VWUF1F2
Завантаження сюжету - це площина на малюнку. Розглянемо тільки змінну . Стрілка, звичайно намальована на навантажувальній ділянці, - це те, що тут позначено h ' ; координати a 1 , a 2 - це навантаження V з F 1 і F 2Vh′a1a2VF1F2 відповідно (будь ласка, знайте, що термінологічно правильніше сказати "компонент завантажує змінну", а не навпаки).
Стрілка є проекцією на площині компонента, вектор ч , який є справжнім станом змінної V в змінних просторі , натягнуте на V , W , U . Квадрат довжини вектора, ч 2 , є дисперсія з V . Тоді як h ′ 2 - частина цієї дисперсії, пояснена двома компонентами.h′hVVWUh2aVh′2
Завантаження, кореляція, прогнозоване співвідношення . Оскільки змінні були зосереджені до вилучення компонентів, - Пірсонова кореляція між V та компонентом F 1 . Це не слід плутати з cos α на графіку завантаження, що є ще однією величиною: це кореляція Пірсона між компонентом F 1 та змінною, векторованою тут як h ' . Як змінна, h ' - це прогнозування V за (стандартизованими) компонентами в лінійній регресії (порівняйте з малюванням геометрії лінійної регресії тутcosϕVF1cosαF1h′h′V) де навантаження 's - коефіцієнти регресії (коли компоненти зберігаються ортогонально, як витягнуті).a
Далі. Ми можемо пам’ятати (тригонометрія), що . Його можна розуміти як скалярний добуток між вектором V та вектором довжини одиниці F 1 : h ⋅ 1 ⋅ cos ϕ . F 1 встановлює цей одиничний дисперсійний вектор, оскільки він не має власної дисперсії, окрім тієї дисперсії V, яку він пояснює (на суму h ' ): тобто F 1a1=h⋅cosϕVF1h⋅1⋅cosϕF1Vh′F1це видобуток із V, W, U, а не запрошений із-за межі сторони. Тоді, чітко, -коваріаціяміжVтастандартизованою, одиничною шкалоюb(задатиs1= √a1=varV⋅varF1−−−−−−−−−−√⋅r=h⋅1⋅cosϕVb) компонентF1. Ця коваріація прямо порівнянна з коваріаціями між вхідними змінними; наприклад, коваріація міжVіWбуде добутком їх довжин вектора, помножених на косинус між ними.s1=varF1−−−−−√=1F1VW
Підсумовуючи: завантаження можна розглядати як коваріацію між стандартизованим компонентом і спостережуваною змінною, h ⋅ 1 ⋅ cos ϕ , або еквівалентно між стандартизованим компонентом і поясненим (усіма компонентами, що визначають графік) зображенням змінна, h ′ ⋅ 1 ⋅ cos α . Це cos α можна назвати співвідношенням V-F1, спроектованим на компонентний підпростір F1-F2.a1h⋅1⋅cosϕh′⋅1⋅cosαcosα
Вищезазначена кореляція між змінною та складовою, , також називається стандартизованим або масштабованим завантаженням . Це зручно в інтерпретації компонентів, оскільки знаходиться в інтервалі [-1,1].cosϕ=a1/h
Ставлення до власних векторів . Масштабірованно- навантаження слід НЕ слід плутати з власним вектором елементом , який - як ми знаємо, - це косинус кута між змінним і основним компонентом. Нагадаємо, що завантаження - це власний векторний елемент, що збільшується на особливе значення компонента (квадратний корінь власного значення). Тобто для змінної V нашої ділянки: a 1 = e 1 s 1 , де s 1 - st. відхилення (не 1, а вихідне, тобто значення однини) F 1cosϕVa1=e1s1s11F1латентна змінна. Тоді виходить, що власний векторний елемент , а не самcosϕ. Плутанина навколо двох слів "косинус" розчиняється, коли ми згадуємо, в якому просторі ми представляємо. Значення власного вектора- цекосинускута поворотузмінної як осі на pr. компонент як вісь у змінному просторі (він же розкидання розсіювача),наприклад, тут. Хочаcosϕна навантажувальній ділянці- це міра подібності косинусуміж змінною як вектор та pr. компонент як ... ну .. як вектор також, якщо вам подобається (хоч це намальовано як вісь на графіці), - адже ми зараз втематичному просторіe1=a1s1=hs1cosϕcosϕcosϕ (який графік завантаження), де співвідносні змінні є вентиляторами векторів - це не ортогональні осі, - а векторні кути є мірою об'єднання - а не обертання бази простору.
В той час як навантаження - це кутова асоціація (тобто скалярний тип продукту), міра асоціації між змінною та одиничною шкалою компонента, а масштабоване навантаження - це стандартизоване навантаження, де масштаб змінної зводиться до одиниці, але коефіцієнт власного вектора - це навантаження, де компонент "завищений", тобто був доведений до масштабу (а не 1); альтернативно, це може розглядатися як масштабоване завантаження, де масштаб змінної був доведений до h / s (замість 1).1/sh/s
Отже, що таке асоціації між змінною та компонентом? Ви можете вибрати те, що вам подобається. Це може бути навантаження (коваріація з одиничною шкалою компонента) ; перемасштабірована завантаження сов ф (= змінна складової кореляція); кореляція між зображенням (передбачення) та компонентом (= прогнозована кореляція cos α ). Ви можете навіть вибрати коефіцієнт власного вектора e = a / s, якщо вам це потрібно (хоча мені цікаво, що може бути причиною). Або винайдіть свій власний захід.a cosϕcosαe=a/s
Значення власного вектора у квадраті має значення внеску змінної в pr. компонент. Налаштоване навантаження в квадраті має значення внеску pr. компонент у змінну.
Ставлення до PCA засноване на кореляціях. Якби ми аналізували PCA не просто центрировані, а стандартизовані (в центрі тоді масштаб одиниці дисперсії), то три вектори змінних (а не їх проекції на площину) були б однакової, одиничної довжини. Потім автоматично випливає, що навантаження - це кореляція , а не коваріація між змінною та компонентом. Але що кореляція НЕ буде дорівнює «стандартизовані навантаження» на зображенні вище (на основі аналізу тільки зосереджених змінних), так як PCA стандартизованих змінних (кореляції на основі PCA) дає різні компоненти , ніж PCA зосереджених змінних ( PCA на основі коваріацій). У кореляційній PCA a 1cosϕ тому що h = 1 , але головні компонентинеєтими самимиосновними компонентами, що ми отримуємо з PCA на основі коваріацій (читати,читати).a1=cosϕh=1
При факторному аналізі ділянка завантаження має в основному ту саму концепцію та інтерпретацію, що й у PCA. Єдина (але важлива ) різниця - це речовина . При факторному аналізі h ' - називається тоді "спільністю" змінної - це частина її дисперсії, що пояснюється загальними факторами, що відповідають за кореляції між змінними. Перебуваючи в PCA, пояснена частина h 'h′h′ h′є грубою "сумішшю" - вона частково являє собою кореляцію та частково неспорідненість серед змінних. При факторному аналізі площина навантажень на нашій картині буде орієнтована інакше (насправді вона навіть пошириться з простору наших 3d змінних на 4-й вимір, який ми не можемо намалювати; площина навантажень не буде підпростором нашої 3d простір, що охоплюється та двома іншими змінними), а проекція h ' буде іншої довжини та з іншим кутом α . (Теоретична різниця між PCA та факторним аналізом пояснюється геометрично тут через предметне представлення простору і тут за допомогою змінного представлення простору.)Vh′α
Відповідь на запит @Antoni Parellada у коментарях. Еквівалентно, чи хочете ви говорити вдисперсіїабо з точки зорурозсіювання(SS відхилення): дисперсія = розкидання / (n-1), деn- розмір вибірки. Оскільки ми маємо справу з одним набором даних з тим самимn, константа нічого не змінює у формулах. ЯкщоXє даними (зі змінними V, W, U), то ейгендекомпозиція матриці коваріації (A) коваріації дає ті самі власні значення (дисперсії компонентів) та власні вектори, як ейгендекомпозиція (B) матриці розсіювання X ′ Xa,b/(n−1)nnXX′Xотриманий після початкового поділу на √X фактор. Після цього у формулі завантаження (див. Середній розділ відповіді)a1=h⋅s1⋅cosϕ, термінh-st. відхилення √n−1−−−−−√a1=h⋅s1⋅cosϕh в (A), але розсіювання коренів (тобто норма)‖V‖в (B). Термінs1, що дорівнює1,-стандартизованийкомпонентF1. відхилення √varV−−−−√∥V∥s11F1 in (A), але розсіювання кореня‖F1‖in (B). Нарешті,cosϕ=r- кореляція, нечутливадо використанняn-1у своїх обчисленнях. Таким чином, ми простоговоримоконцептуально про відхилення (А) або про розсіювання (В), тоді як самі значення залишаються однаковими у формулі в обох випадках.varF1−−−−−√∥F1∥cosϕ=rn−1