Ця відповідь навмисно нематематична і орієнтована на психолога-нестатиста (скажімо), який запитує, чи може він підсумовувати / середні бали за різними факторами для отримання оцінки «складеного індексу» для кожного респондента.
Підведення підсумків або усереднення балів деяких змінних передбачає, що змінні належать до одного і того ж виміру і є мірими мірками. (У питанні "змінні" - це складові чи коефіцієнти , що нічого не змінює, оскільки вони є прикладами змінних.)
Дійсно (рис. 1) респонденти 1 та 2 можуть сприйматися однаково нетипово (тобто відхиляються від 0, місце центру обробки даних або походження шкали), обидва мають однаковий середній бал і ( 1.2 + .4 ) / 2 = .8 . Значення .8 справедливо, як ступінь нетиповості, для конструкції X + Y настільки ж ідеально, як це було для X і Y(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXYокремо. Корельовані змінні, що представляють один і той же самий вимір, можна розглядати як повторні вимірювання однієї і тієї ж характеристики та різницю або нееквівалентність їх балів як випадкову помилку. Тому доцільно підсумовувати / оцінювати середні бали, оскільки, як очікується, випадкові помилки скасують один одного у спе .
Це не так, якщо і Y недостатньо співвіднесені, щоб бачити однаковий "вимір". Тоді відхилення / нетиповість респондента передається евклідовою дистанцією від початку (рис. 2).XY
Ця відстань різна для респондентів 1 та 2: і√.82+.82−−−−−−−√≈1.131.22+.42−−−−−−−−√≈1.26X=.8Y=−.8X=0Y=0
wXXi+wYYiXYwXwYвстановлюються постійними для всіх респондентів i, що є причиною вади. Для співвідношення біваріантного відхилення респондента - по колу або еліпсу - необхідно ввести ваги, залежні від його балів; евклідова відстань вважалося раніше це на самому справі приклад такої зваженої суми з вагами , що залежать від значень. І якщо для вас важливо включити неоднакові варіації змінних (наприклад, основних компонентів, як у запитанні), ви можете обчислити зважену евклідову відстань, відстань, яка знайдеться на рис. 2 після того, як коло витягнеться.
|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y=−.81.60
(Ви можете вигукнути: "Я зроблю всі результати оцінки позитивними та обчислюю суму (або середню) з доброю совістю, оскільки я вибрав відстань на Манхеттені", але, будь ласка, подумайте - чи маєте ви право вільне переміщення походження? Основні компоненти чи фактори, наприклад, витягуються за умови, що дані центрируються до середнього значення, що має сенс. Інше походження створювало б інші компоненти / фактори з іншими показниками. Ні, більшість часу ви не можете грати з початком - локусом "типового респондента" або "риси нульового рівня" - як ви хочете грати.)
Підводячи підсумок , якщо мета складеної конструкції полягає у відображенні позицій респондентів відносно якогось "нуля" або типового локусу, але змінні навряд чи корелюють, якесь просторове відстань від цього походження, а не означає (або суму), зважене або невагомі, слід вибирати.
Ну, середня сума (сума) матиме сенс, якщо ви вирішите розглядати (некорельовані) змінні як альтернативні режими для вимірювання того ж самого . Таким чином ви свідомо ігноруєте різну природу змінних. Іншими словами, ви свідомо залишаєте рис. 2 на користь фіг. 1: ви "забуваєте" про те, що змінні незалежні. Потім - суму чи середню. Наприклад, оцінка за "матеріальне благополуччя" та "емоційне благополуччя" може бути усередненим, так само, як і "просторовий IQ" та "словесний IQ". Цей тип суто прагматичний, не затверджені сатистично складові композити називаються індексами батареї (збірка тестів чи анкетування, які вимірюють неспоріднені речі або співвідносні речі, кореляції яких ми ігноруємо, називаються "батарея"). Індекси акумуляторної батареї мають сенс лише в тому випадку, якщо бали мають однаковий напрямок (наприклад, багатство та емоційне здоров'я розглядаються як "кращий" полюс). Їх корисність поза вузькими спеціальними налаштуваннями обмежена.
Якщо змінні знаходяться у взаємозв'язку - вони значно співвідносяться все ще недостатньо сильно, щоб бачити їх як дублікати, альтернативи один одному, ми часто підсумовуємо (або середні) їх значення у зваженому порядку. Тоді ці ваги повинні бути ретельно розроблені, і вони повинні відображати, той чи інший спосіб, співвідношення. Це те, що ми робимо, наприклад, за допомогою PCA або факторного аналізу (FA), де ми спеціально обчислюємо показники компонентів / коефіцієнтів. Якщо ваші змінні самі є вже складовими чи коефіцієнтами (наприклад, тут йдеться про питання ОП), і вони співвідносяться (через косове обертання), ви можете піддати їх (або безпосередньо матриці завантаження) PCA / FA другого порядку, щоб знайти ваги і отримайте ПК / коефіцієнт другого порядку, який буде обслуговувати "складений індекс" для вас.
Але якщо ваші показники компонентів / коефіцієнтів були невідповідними або слабко співвідносяться, немає статистичних причин ані підсумовувати їх прямо, ані визначати ваги. Використовуйте натомість деяку відстань. Проблема відстані полягає в тому, що вона завжди позитивна: ви можете сказати, наскільки реальним є нетиповий респондент, але не можна сказати, чи він "вище" чи "знизу". Але це ціна, яку ви повинні заплатити за вимогу одного індексу з багатокористувацького простору. Якщо ви хочете і відхилитись, і ввійти в такий простір, я б сказав, що ви надто вимогливі.
В останньому пункті ОП запитує, чи правильно брати за один показник лише показник однієї, найсильнішої змінної щодо її дисперсії - 1-го головного компонента в даному випадку. Є сенс, якщо цей ПК набагато сильніше, ніж решта ПК. Хоча тоді можна запитати: «якщо він настільки сильніший, чому ви не витягнули / не зберегли лише підошву?».