Кореляція між категоріями між категоричними номінальними змінними


9

У мене є набір даних з двома категоричними номінальними змінними (обидві з 5 категоріями). Мені хотілося б знати, чи (і як) мені вдається виявити потенційні кореляції між категоріями цих двох змінних.

Іншими словами, чи, наприклад, результати категорії в змінній 1 показують сильну кореляцію з конкретною категорією у змінній 2. Оскільки у мене є дві змінні з 5 категоріями, то загальний аналіз кореляції для всіх категорій знизиться до 25 результатів (принаймні, якщо він працює так, як я сподіваюся / очікую, що він буде працювати).ij

Я спробував сформулювати проблему в конкретні питання:

Питання 1: Скажімо, я переношу категоричну змінну на 5 різних фіктивних змінних на значення (категорію). Цю ж процедуру я запускаю і для другої змінної. Тоді я хочу визначити співвідношення між манекеном 1.i та 2.i (наприклад). Чи є статистично правильним виконання цієї процедури за допомогою звичайної процедури коефіцієнта кореляції? Чи забезпечує коефіцієнт кореляції, що виникає в результаті цієї процедури, належну інформацію про кореляцію між двома фіктивними змінними?

Запитання 2: Якщо описана в першій процедурі процедура є дійсною процедурою, чи є спосіб виконати цей аналіз для всіх категорій 2 (або, можливо, більше) категоричних номінальних змінних відразу?

Програма, якою я користуюся, - SPSS (20).


Бали, внесені @Michael Mayer, стосуються переглянутого питання.
Нік Кокс

1
Якщо дві змінні не співвідносяться, то у вас буде 1/25 у кожній комірці 5x5 матриць частот. Отже, статистика , де і - частота, що спостерігається, для будь-якого з 5 значень двох змінних повинні бути придатними. χ2xy(OE)2EE=xyOxy/25Oxy
Аксакал

3
@Aksakal "Не корелює" тут неправильний термін; змінні номінальні, тому кореляції не визначаються. Я думаю, ви маєте на увазі незалежність, але незалежність не передбачає рівних частот. Частотні частоти комірок залежать від граничних частот.
Нік Кокс

Відповіді:


6

"Фокальна" асоціація між категорією однієї номінальної змінної та категорією іншої виражається частотою, залишковою в комірці , як ми знаємо. Якщо залишкове значення 0, то це означає, що частота є такою, яку очікують, коли дві номінальні змінні не пов'язані. Чим більше залишок, тим більшою є асоціація через занадто представлену комбінацію у вибірці. Великий негативний залишок рівнозначно говорить про недостатньо представлену комбінацію. Отже, залишкова частота - це те, що ви хочете.ijijij

Сирі залишки не підходять, оскільки вони залежать від граничних підсумків та загальної суми та розміру таблиці: значення жодним чином не стандартизоване. Але SPSS може відображати стандартизовані залишки, які також називаються залишками Пірсона. Ст. Залишковий - залишковий, поділений на оцінку його стандартного відхилення (рівний квадратному кореню очікуваного значення). St. залишки таблиці мають середнє значення 0 і st. дев. 1; отже, вул. залишкове служить z-значенням, як z-значення в розподілі кількісної змінної (насправді це z в розподілі Пуассона). Св невязки порівнянні між різними таблицями однакового розміру і однаковою сумарною . Chi-квадратна статистика таблиці дій на випадок - це сума квадрата st. залишкиNу цьому. Порівнюючи вул. залишки в таблиці та в однакових об'ємних таблицях допомагають ідентифікувати конкретні комірки, які найбільше сприяють статистиці хі-квадратів.

SPSS також відображає скориговані залишки (= скориговані стандартизовані залишки). Прик. залишковий - залишковий, поділений на оцінку його стандартної похибки. Цікаво, що прикмет. залишковий просто дорівнює , де - загальна сума, а - кореляція Пірсона (псевдонім Phi кореляція) між фіктивними змінними, що відповідають категоріям та двох номінальних змінних . Це саме те , що ви говорите , що ви хочете , щоб обчислити. Прик. залишковий безпосередньо пов'язаний з цим.NrijNrijijr

На відміну від вул. залишковий, прик. Залишковий також стандартизовані WRT в формі маргінальних розподілів в таблиці (він бере до уваги очікувану частоту не тільки в цій клітці , але і в клітинах поза ним рядки і його стовпчика) і , таким чином Ви можете безпосередньо бачити сили з пов'язати між категоріями та - не турбуючись про те, чи великі їх граничні суми великі чи малі відносно інших категорій " Прик. залишковий також як z-оцінка, але зараз це як z нормального (не Пуассона) розподілу. Якщо прикмет. залишкове вище 2 або нижче -2, ви можете зробити висновок, що це суттєво на рівні . Прик. залишки все ще впливають на ; ijp<0.051Nr's ні, але ви можете отримати всі s від adj. залишки, дотримуючись наведеної вище формули, не витрачаючи часу на створення фіктивних змінних. r2

Що стосується вашого другого запитання, щодо трехсторонніх зв'язків категорій - це можливо в рамках загального логістичного аналізу, який також відображає залишки. Однак практичне використання залишків 3-х клітинних клітин є скромним: 3 (+) - заходи асоціації не легко стандартизуються і не є легко інтерпретованими.


1 У ст. нормальна крива - це точка відсіку хвоста 2,5%, тому 5%, якщо розглядати обидва хвости, як при двосторонній альтернативній гіпотезі.1.962

2 Звідси випливає, що значення скорегованого залишку в комірці дорівнює значенню . Крім того, якщо в таблиці є лише два стовпці, і ви виконуєте z-тест пропорцій між та , пропорціями стовпців для рядка , p-значення цього тесту дорівнює значенню обох (будь-яких) пристосувань. залишки у рядку таблиці 2 стовпців.ijrijPr(i,1)Pr(i,2)ii


1

Безпосередньо взято з документа про двовимірну статистику з SPSS, який живе тут :

Chi-квадрат є корисною технікою, оскільки ви можете використовувати його, щоб побачити, чи існує зв’язок між двома порядковими змінними, двома номінальними змінними або між порядковою та номінальною змінною. Ти дивишся на асимп. Зі стовпцем, і якщо він менший за 0,05, зв'язок між двома змінними є статистично значущим.


4
Гаразд, але три бурчання, один основний, два дуже другорядні. Chi-квадрат на двох порядкових змінних ігнорує впорядкування. Це не SPSS документ, але елементарне введення ким - то ще, і вони спрощувати, як тільки що згадувалося. Вони не копіювали "Асимп". правильно (приклад на попередній сторінці). Більш важливим питанням для ОП є те, що кореляція - це неправильне слово: «асоціація» - це ключове слово з точки зору вимірювання, тестування та (найкраще) моделювання асоціації.
Нік Кокс

1
Дякую, я the SPSS documentтрохи відредагував, я не мав наміру надавати йому жодної зайвої автентичності.
Жубарб
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.