Створення єдиного індексу з декількох основних компонентів або факторів, збережених у PCA / FA

Я використовую аналіз основних компонентів (PCA) для створення індексу, необхідного для мого дослідження. Моє питання - як я повинен створити єдиний індекс, використовуючи збережені основні компоненти, обчислені за допомогою PCA.

Наприклад, я вирішив зберегти 3 основні компоненти після використання PCA, і я обчислив бали для цих 3 основних компонентів. Які належні способи створити для кожного респондента єдиний індекс з цих 3 балів?

Чи доречно додати 3 обчислені бали, щоб вони мали складене значення?
Або в середньому 3 бали мати таку цінність?
Або я повинен просто зберегти перший головний компонент (найсильніший) і використовувати його показник як індекс?

Крім того, можна використовувати факторний аналіз (FA), але залишається те саме питання: як створити єдиний індекс на основі кількох балів факторів?

— користувач179313
джерело

ПК за визначенням некорельовані. Тому, як змінні, вони жодним чином не дублюють інформацію один одного. Це означає, що немає підстав для створення єдиного значення (складеної змінної) з них. Або, іноді множення їх може стати цікавим, можливо, але не підсумовуючи чи усереднюючи.

— ttnphns

Я погоджуюся з @ttnphns: ваші перші два варіанти не мають особливого сенсу, і всі зусилля щодо "об'єднання" трьох ПК в один індекс здаються помилковими. Візьміть 1-й ПК як свій індекс або використовуйте зовсім інший підхід.

— амеба каже: Відновіть Моніку

@ttnphns некорельований, не незалежний. На комп'ютерах може повторюватися зайва інформація, тільки не лінійно.

— домисли

@amoeba Дякую за нагадування. Я розробив версії для тегу та його витягу на сайті stats.stackexchange.com/tags/valuation/info .

— whuber

@ttnphns Чи можете ви розмістити відповідь тут, грунтуючись на вашому коментарі вище? Я щойно розпочав щедроту, тому що варіанти цього питання все ще з’являються, і ми не можемо закрити їх як дублікати, тому що ніде немає задовільної відповіді.

— Амеба каже: Відновити Моніку

Відповіді:

Ця відповідь навмисно нематематична і орієнтована на психолога-нестатиста (скажімо), який запитує, чи може він підсумовувати / середні бали за різними факторами для отримання оцінки «складеного індексу» для кожного респондента.

Підведення підсумків або усереднення балів деяких змінних передбачає, що змінні належать до одного і того ж виміру і є мірими мірками. (У питанні "змінні" - це складові чи коефіцієнти , що нічого не змінює, оскільки вони є прикладами змінних.)

Дійсно (рис. 1) респонденти 1 та 2 можуть сприйматися однаково нетипово (тобто відхиляються від 0, місце центру обробки даних або походження шкали), обидва мають однаковий середній бал і . Значення справедливо, як ступінь нетиповості, для конструкції настільки ж ідеально, як це було для і $(.8+.8)/2=.8$ $(1.2+.4)/2=.8$ $.8$ $X+Y$ $X$ $Y$ окремо. Корельовані змінні, що представляють один і той же самий вимір, можна розглядати як повторні вимірювання однієї і тієї ж характеристики та різницю або нееквівалентність їх балів як випадкову помилку. Тому доцільно підсумовувати / оцінювати середні бали, оскільки, як очікується, випадкові помилки скасують один одного у спе .

Це не так, якщо і недостатньо співвіднесені, щоб бачити однаковий "вимір". Тоді відхилення / нетиповість респондента передається евклідовою дистанцією від початку (рис. 2). $X$ $Y$

Ця відстань різна для респондентів 1 та 2: і $\sqrt{.8^2+.8^2} \approx 1.13$ $\sqrt{1.2^2+.4^2} \approx 1.26$ $X=.8$ $Y=-.8$ $X=0$ $Y=0$

$w_XX_i+w_YY_i$ $X$ $Y$ $w_X$ $w_Y$ встановлюються постійними для всіх респондентів i, що є причиною вади. Для співвідношення біваріантного відхилення респондента - по колу або еліпсу - необхідно ввести ваги, залежні від його балів; евклідова відстань вважалося раніше це на самому справі приклад такої зваженої суми з вагами , що залежать від значень. І якщо для вас важливо включити неоднакові варіації змінних (наприклад, основних компонентів, як у запитанні), ви можете обчислити зважену евклідову відстань, відстань, яка знайдеться на рис. 2 після того, як коло витягнеться.

$|.8|+|.8|=1.6$ $|1.2|+|.4|=1.6$ $X=.8$ $Y=-.8$ $1.6$ $0$

(Ви можете вигукнути: "Я зроблю всі результати оцінки позитивними та обчислюю суму (або середню) з доброю совістю, оскільки я вибрав відстань на Манхеттені", але, будь ласка, подумайте - чи маєте ви право вільне переміщення походження? Основні компоненти чи фактори, наприклад, витягуються за умови, що дані центрируються до середнього значення, що має сенс. Інше походження створювало б інші компоненти / фактори з іншими показниками. Ні, більшість часу ви не можете грати з початком - локусом "типового респондента" або "риси нульового рівня" - як ви хочете грати.)

Підводячи підсумок , якщо мета складеної конструкції полягає у відображенні позицій респондентів відносно якогось "нуля" або типового локусу, але змінні навряд чи корелюють, якесь просторове відстань від цього походження, а не означає (або суму), зважене або невагомі, слід вибирати.

Ну, середня сума (сума) матиме сенс, якщо ви вирішите розглядати (некорельовані) змінні як альтернативні режими для вимірювання того ж самого . Таким чином ви свідомо ігноруєте різну природу змінних. Іншими словами, ви свідомо залишаєте рис. 2 на користь фіг. 1: ви "забуваєте" про те, що змінні незалежні. Потім - суму чи середню. Наприклад, оцінка за "матеріальне благополуччя" та "емоційне благополуччя" може бути усередненим, так само, як і "просторовий IQ" та "словесний IQ". Цей тип суто прагматичний, не затверджені сатистично складові композити називаються індексами батареї (збірка тестів чи анкетування, які вимірюють неспоріднені речі або співвідносні речі, кореляції яких ми ігноруємо, називаються "батарея"). Індекси акумуляторної батареї мають сенс лише в тому випадку, якщо бали мають однаковий напрямок (наприклад, багатство та емоційне здоров'я розглядаються як "кращий" полюс). Їх корисність поза вузькими спеціальними налаштуваннями обмежена.

Якщо змінні знаходяться у взаємозв'язку - вони значно співвідносяться все ще недостатньо сильно, щоб бачити їх як дублікати, альтернативи один одному, ми часто підсумовуємо (або середні) їх значення у зваженому порядку. Тоді ці ваги повинні бути ретельно розроблені, і вони повинні відображати, той чи інший спосіб, співвідношення. Це те, що ми робимо, наприклад, за допомогою PCA або факторного аналізу (FA), де ми спеціально обчислюємо показники компонентів / коефіцієнтів. Якщо ваші змінні самі є вже складовими чи коефіцієнтами (наприклад, тут йдеться про питання ОП), і вони співвідносяться (через косове обертання), ви можете піддати їх (або безпосередньо матриці завантаження) PCA / FA другого порядку, щоб знайти ваги і отримайте ПК / коефіцієнт другого порядку, який буде обслуговувати "складений індекс" для вас.

Але якщо ваші показники компонентів / коефіцієнтів були невідповідними або слабко співвідносяться, немає статистичних причин ані підсумовувати їх прямо, ані визначати ваги. Використовуйте натомість деяку відстань. Проблема відстані полягає в тому, що вона завжди позитивна: ви можете сказати, наскільки реальним є нетиповий респондент, але не можна сказати, чи він "вище" чи "знизу". Але це ціна, яку ви повинні заплатити за вимогу одного індексу з багатокористувацького простору. Якщо ви хочете і відхилитись, і ввійти в такий простір, я б сказав, що ви надто вимогливі.

В останньому пункті ОП запитує, чи правильно брати за один показник лише показник однієї, найсильнішої змінної щодо її дисперсії - 1-го головного компонента в даному випадку. Є сенс, якщо цей ПК набагато сильніше, ніж решта ПК. Хоча тоді можна запитати: «якщо він настільки сильніший, чому ви не витягнули / не зберегли лише підошву?».

— ttnphns
джерело

Створення складеного індексу за допомогою PCA із посилань часових рядів на http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

У цій статті на сторінці 19 автори згадують спосіб створення нестандартизованого індексу (НСІ) за допомогою пропорції варіації, поясненої кожним фактором, до загальної зміни, поясненої вибраними чинниками. Потім цей НСІ був нормалізований.

— САЧИН ГАРГ
джерело

Цей розділ на сторінці 19 робить саме те сумнівне, проблематичне додавання яблук і апельсинів, про що попереджали амеба і я у коментарях вище. Підсумовування некорельованих змінних в одному індексі навряд чи має статистичне значення.

— ttnphns

Іноді ми додаємо конструкції / шкали / тести, які є неспорідненими і вимірюють різні речі. Це був би індекс акумулятора (тести, які вважаються зовсім іншими / некорельованими, називаються "акумулятор"). Індекс батареї може мати певний локальний прагматичний сенс, хоча йому майже не вистачає статистичного значення, як сказано в попередньому коментарі.

— ttnphns

див. також питання stats.stackexchange.com/q/236786/3277 .

— ttnphns

-1 завдяки тому, що написано вище.

— амеба каже: Відновіть Моніку