Як обчислити кореляцію між / в групах змінних?


13

У мене є матриця з 1000 спостережень і 50 змінних, кожна з яких вимірюється за 5-бальною шкалою. Ці змінні впорядковані в групи, але в кожній групі немає однакової кількості змінних.

Я хотів би обчислити два типи кореляцій:

  1. Кореляція всередині груп змінних (серед характеристик): деякий показник того, чи змінні в межах групи змінних однакові.
  2. Кореляція між групами змінних: деякий показник, припускаючи, що кожна група відображає одну загальну ознаку, того, як кожна ознака (група) пов'язана з кожною іншою ознакою.

Ці характеристики раніше були класифіковані в групи. Мені цікаво знайти співвідношення між групами - тобто припускаючи, що характеристики, що знаходяться в групі, вимірюють ту саму основну ознаку (завершивши №1 вище - альфа Кронбаха), чи пов’язані самі риси?

Хтось має пропозиції, з чого почати?


1
Якщо ви знайомі з R, є пакет veganз функціями anosimабо, бажано, adonis(перестановка MANOVA).
Роман Луштрик

Я оновив ваше запитання, щоб спробувати використовувати стандартну термінологію (тобто, змінні не характеристики; групи змінних, а не "групи")
Jeromy Anglim

Відповіді:


16

Те, що запропонував @rolando, виглядає як вдалий початок, якщо не вся відповідь (IMO). Дозвольте мені продовжити кореляційний підхід, дотримуючись рамки Теорії класичних тестів (CTT). Тут, як зазначає @Jeromy, підсумковий показник для вашої групи характеристик може розглядатися як сумарна (або сума) балів усіх предметів (характеристика, на ваші слова), що належать до того, що я зараз буду називати шкалою. Відповідно до CTT, це дозволяє нам формалізувати індивідуальну схильність або відповідальність як "місце розташування" у безперервному масштабі, що відображає основну конструкцію (приховану ознаку), хоча тут це лише порядковий масштаб (але це ще одна дискусія в літературі психометрії) .

Те, що ви описали, має відношення до того, що відомо як конвергентне (наскільки предмети, що належать до однієї шкали, співвідносяться одне з одним) та дискримінантне (предмети, що належать до різних масштабів, не повинні сильно співвідноситись) з валідністю психометрики. Класичні методи включають багатотоковий багатометадний аналіз (МТММ) (Campbell & Fiske, 1959). Ілюстрація того, як це працює, показана нижче (три методи або інструменти, три конструкції або ознаки):

введіть тут опис зображення

У цій матриці MTMM діагональні елементи можуть бути альфами Кронбаха або внутрішньокласовою кореляцією тесту-повторного тестування; це показники надійності кожної шкали вимірювання. Дії з гіпотетичного (загального) конструкцій оцінюються по кореляції шкал оцінок , коли різні інструменти використовуються для оцінки того ж ознаки; якби цей інструмент був розроблений незалежно, висока кореляція ( ) підтримувала б ідею про те, що ознаки визначаються послідовно та об'єктивно. Решта комірок у цій матриці MTMM підсумовують відносини між ознаками всередині методу та між ознаками в різних методах< .3>0.7, і вказують на те, як вимірюються унікальні конструкції з різними масштабами та якими є відносини між кожною ознакою в заданій шкалі. Якщо припустити незалежні риси, ми, як правило, не очікуємо, що вони будуть високими (рекомендований поріг - ), проте можна провести більш офіційний тест гіпотези (на оцінках точки кореляції). Тонкість полягає в тому, що ми використовуємо так звану "кореляцію відпочинку", тобто обчислюємо кореляцію між елементом (або ознакою) та його шкалою (або методом) після вилучення внеску цього предмета до сумарного балу цієї шкали (виправлення для перекриття).<.3

Навіть якщо цей метод спочатку був розроблений для оцінки збіжної та дискримінантної достовірності певної кількості ознак, що вивчаються різними вимірювальними приладами, він може бути застосований для одного багатомасштабного інструменту. Тоді риси стають предметами, а методи - просто різними масштабами. Узагальнення цього методу до одного інструменту також відоме як багатокористувацьке масштабування . Елементи, що співвідносяться, як очікувалося (тобто з їх власною шкалою, а не з іншою шкалою), вважаються успішними. Однак ми зазвичай припускаємо, що різні масштаби не співвідносяться, тобто націлюються на різні гіпотетичні конструкції. Але усереднення кореляцій всередині та між масштабами забезпечує швидкий спосіб узагальнення внутрішньої структури вашого інструменту. Ще один зручний спосіб зробити це - застосувати кластерний аналіз на матриці попарних кореляцій і побачити, як ваші змінні з’єднуються разом.

Зверніть увагу, що в обох випадках застосовуються звичайні застереження щодо роботи з кореляційними заходами, тобто ви не можете врахувати похибку вимірювання, потрібен великий зразок, прилади або тести вважаються "паралельними" (тау-еквівалентність, некорельовані помилки, однакові відхилення помилок).

Друга частина, на яку звернувся @rolando, також цікава: якщо немає теоретичних чи змістовних ознак того, що вже створена групування предметів має сенс, тоді вам доведеться знайти спосіб виділити структуру ваших даних за допомогою, наприклад, дослідницького аналізу факторів . Але навіть якщо ви довіряєте тим "характеристикам у групі", ви можете перевірити, що це правильне припущення. Тепер ви можете використовувати модель підтвердження факторного аналізу, щоб перевірити, чи схема завантаження елементів (співвідношення предмета з його власною шкалою) веде себе як очікувалося.

Замість традиційних факторно-аналітичних методів ви також можете поглянути на групування елементів (Revelle, 1979), що спирається на алфавітне правило, засноване на Кронбаха, для групування елементів у однорідні масштаби.

Заключне слово: Якщо ви використовуєте R, є два дуже приємні пакети, які полегшать вищезазначені кроки:

  • псих , надає вам все , що потрібно для початку роботи з методами психометрії, в тому числі факторного аналізу ( fa, fa.parallel, principal), елементами кластеризації ( ICLUSTі пов'язана з ними методу), альфа Кронбаха ( alpha); є хороший огляд можна знайти на сайті William Ревелла, особливо введення в психометричних теорію з додатками в R .
  • пси , також включає в себе графік обсипу (через PCA + модельовані набори даних) візуалізацію ( scree.plot) та MTMM ( mtmm).

Список літератури

  1. Кемпбелл, DT і Фіске, DW (1959). Конвергентна та дискримінантна валідація матрицею багатокористувацької мультиметоди. Психологічний вісник , 56: 81–105.
  2. Hays, RD та Fayers, P. (2005). Оцінка багатопозиційних шкал. В « Оцінка якості життя в клінічних випробуваннях» (Fayers, P. and Hays, R., Eds.), Стор. 41-53. Оксфорд.
  3. Revelle, W. (1979). Ієрархічний аналіз кластерів та внутрішня структура тестів. Багатовимірне поведінкове дослідження , 14: 57-74.

Це, мабуть, найцікавіша відповідь, яку я читав на будь-якій з бірж і вже 5 років вивчаю економетрику.
d8aninja

Чи тут включена матриця MTMM має бути реалістичним прикладом кореляційної матриці? Якщо це так, я зазначу, що це насправді не є позитивною напівфінітною матрицею: наприклад, мінор 4 на 4 для кореляцій ознак 1,2 у методах 1,2 має визначальний коефіцієнт -0.0419179. (Оскільки це невелике від’ємне значення, це, можливо, просто переходить до вашої точки ре: «помилка вимірювання».)
напівкласика

7

Те, як я читаю вашу термінологію, потрібно спочатку оцінити внутрішню узгодженість у межах кожної групи змінних, а потім оцінити кореляції між балами шкали, що становлять середнє значення для кожної групи змінних. Перший можна зробити за допомогою альфа Кронбаха, а другий за допомогою кореляції Пірсона. Це передбачає, що у вас досить нормальні розподіли та досить лінійні відносини.

Більш залученим методом, а не обов'язково необхідним, було б проведення дослідницького аналізу факторів. Ви спробуєте встановити, які змінні слід згрупувати разом, а потім знову, наскільки ці фактори будуть співвідноситись. Якщо ви спробуєте цей метод, переконайтеся, що ви використовуєте косі повороти, щоб ті кореляції з'явилися. Чи будете ви використовувати вилучення основних компонентів або вилучення головної осі, залежатиме, відповідно, від того, чи є ваші змінні об'єктивними, безпомилковими вимірюваннями або суб'єктивними, такими як елементи опитування, які містять певну кількість помилок.


Дякую за Вашу відповідь. Мені вдалося обчислити альфу Кронбаха, але як можна обчислити коефіцієнти кореляції Пірсона в цьому випадку? Я міг би їх обчислювати попарно для кожної окремої характеристики, але хотілося б знати, як обчислити співвідношення між групами характеристик. Характеристики в групі матимуть однакові бали для кожного спостереження. Я збираюсь відредагувати своє питання, щоб зробити це трохи зрозумілішим.
блеп

5
  • Стандартними інструментами, принаймні в психології, у вашій ситуації були б дослідницький та підтверджуючий факторний аналіз для оцінки конвергенції міжпунктної кореляційної матриці з деякою запропонованою моделлю взаємозв'язку між факторами та предметами. Те, як ви сформулювали своє запитання, говорить про те, що ви, можливо, не знайомі з цією літературою. Наприклад, ось мої замітки щодо побудови шкали та факторного аналізу, і ось підручник з R щодо факторного аналізу форми Quick-R . Таким чином, хоча варто відповісти на ваше конкретне запитання, я думаю, що ваші більш широкі цілі будуть краще служити, вивчаючи факторно-аналітичні підходи до оцінки багатофакторних багатофакторних шкал.

  • Ще однією стандартною стратегією було б обчислення загальних балів для кожної групи змінних (те, що я б назвав "шкалою") і співвіднесення шкал.

  • Багато інструментів аналізу надійності повідомлять про середньостатистичну взаємозв'язок.

  • Якщо ви створили матрицю співвідношень 50 на 50 між елементами, ви могли б написати функцію в R, яка усереднювала підмножини на основі комбінацій груп змінних. Ви не можете отримати те, що хочете, якщо у вас суміш позитивних і негативних елементів, оскільки негативні кореляції можуть скасувати позитивні кореляції.


2

Я б запропонував використовувати в якості заміни поняття кореляції, яке визначається лише для парних, поняття взаємної інформації та інтеграції в гауссових моделях.

G1

I1log(|C1|)

C1G1G1log(1ρ2)ρ

Для обчислення взаємодії між двома групами змінних можна використовувати взаємну інформацію, яка є просто перехресною ентропією між групами:

MU12=I12I1I2

Після швидкого пошуку в Google я знайшов посилання на ці поняття.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.