Коефіцієнт кореляції між (недихотомічною) номінальною змінною та числовою (інтервалом) або порядковою змінною

Я вже читав усі сторінки цього сайту, намагаючись знайти відповідь на свою проблему, але, здається, ніхто не формує мене ...

Спочатку я поясню вам тип даних, з якими я працюю ...

Скажімо, у мене є вектор масиву з кількома назвами міста, по одному для кожного з 300 користувачів. У мене також є інший вектор масиву з оцінкою відповіді на опитування кожного користувача або безперервне значення для кожного користувача.

Я хотів би знати, чи існує коефіцієнт кореляції, який обчислює кореляцію між цими двома змінними, між номінальною та числовою / безперервною чи порядковою змінними.

Я шукав в Інтернеті, а на деяких сторінках вони пропонують використовувати коефіцієнт непередбачуваності або коефіцієнт Креймера V або коефіцієнт лямбда або Ета. Для кожного з цих заходів просто скажіть, що вони можуть бути застосовані для таких даних, у яких у нас є номінальна змінна та інтервальна чи числова змінна. Вся справа в тому, що пошук і пошук, намагаючись зрозуміти кожен з них, колись пишеться або переглядає приклади, що їх розумно використовувати, якщо у вас є дихотомна номінальна змінна, за винятком V в Cramer, інший час не пишеться жодна вимога для тип даних. Багато інших сторінок говорять про те, що правильно застосовувати регресію замість цього, це правильно, але я просто хотів би знати, чи є такий коефіцієнт, як груша / сперман для такого роду даних.

Я також вважаю, що не так правильно використовувати коефіцієнт кореляції Спірмена, оскільки міста не є сортовими.

Я також створив функцію Cramer'sV і Eta сам (я працюю з Matlab), але для Ети вони не говорять про будь-яке значення p, щоб побачити, чи є коефіцієнт статистично значущим ...

На сайті matlabWorks також є приємна панель інструментів, яка говорить про обчислення ета ^ 2, але тип введення, який він потребує, не зрозумілий.

Хтось тут зробив тест, як у мене? Якщо вам потрібна більш детальна інформація, щоб зрозуміти тип даних, які я використовую, просто запитайте мене, і я спробую пояснити вам краще.

— Крістіс
джерело

Cramérs V призначений для двох номіналів. Що поганого в регресії? Візьміть числову змінну як відповідь і поверніть її до номіналу (використовуючи манекени). Подивіться на та пов'язаний з ним глобальний F-тест.

R^{2}

$R^2$

— Майкл М

З регресією нічого поганого немає, але оскільки у нас вже є міра, ми хотіли б перевірити її іншим способом так само, як подвійна перевірка з коефіцієнтом кореляції .... дякую за відповідь

— cristis

Ви нічого не сказали про вашу "числову / порядкову" змінну. Що змушує вас ставити це порядково? числовий?

— ttnphns

порядковий знак У мене є змінна, що надходить із тесту опитування, тому її діапазон становить -4,4, ви також можете вважати це інтервалом, але цей вид змінної опитування вважається здебільшого порядковим, а інші - числовими, у певному безперервному періоді, оскільки вони є витягнуті риси.

— cristis

ДИВІТЬСЯ ТАКОЖ пов’язане питання stats.stackexchange.com/questions/23938/…

— ttnphns

Відповіді:

Номінальний - Інтервал

Найбільш класичний показник "кореляції" між номінальною та інтервальною ("числовою") змінною є Ета , також називається коефіцієнтом кореляції, і дорівнює кореневому R-квадрату однобічної ANOVA (з р-значенням = значення коефіцієнта АНОВА). Ета може розглядатися як симетрична міра асоціації, як кореляція, тому що Ета ANOVA (з номіналом як незалежним, числовим як залежним) дорівнює сліду Піллея багатоваріантної регресії (з числовою, як незалежною, безліччю фіктивних змінних, що відповідають номінальний як залежний).

Більш тонка міра - коефіцієнт кореляції внутрішньокласового рівня ( ICC ). Оскільки Ета розуміє лише різницю між групами (визначеною номінальною змінною) щодо числової змінної, МКК одночасно вимірює також координацію або узгодження між числовими значеннями всередині груп; інакше кажучи, ICC (особливо оригінальна неупереджена версія "спарювання" ICC) залишається на рівні значень, в той час як Eta працює на рівні статистики (група означає проти групових дисперсій).

Номінальний проти звичайного

Питання про міру "кореляції" між номінальною та порядковою змінною є менш очевидним. Причина труднощів полягає в тому, що порядковий масштаб за своєю природою є більш "містичним" або "скрученим", ніж інтервальний або номінальний шкала. Не дивно, що статистичний аналіз спеціально для порядкових даних поки що сформульований відносно погано.

Одним із способів може бути перетворення порядкових даних у ранги, а потім обчислення етапу так, як якщо б ранги були інтервальними даними. Значення p такого Ета = значення аналізу Крускала-Уолліса. Цей підхід видається обґрунтованим через ті ж міркування, що і для того, чому Spearman rho використовується для співвіднесення двох порядкових змінних. Ця логіка полягає в тому, що "коли ви не знаєте ширини інтервалу на шкалі, виріжте Гордіїв вузол, лінеаризуючи будь-яку можливу монотонність: перейдіть до ранжирування даних".

Іншим підходом (можливо, більш суворим та гнучким) було б використання порядкової логістичної регресії з порядковою змінною як DV та номінальною як IV. Квадратний корінь псевдо-R-квадрата Нагелкера (з р-значенням регресії) - ще одна міра кореляції для вас. Зауважте, що ви можете експериментувати з різними функціями зв'язку в порядковій регресії. Однак ця асоціація не є симетричною: номінал вважається незалежним.

Ще одним підходом може бути пошук такого монотонного перетворення порядкових даних в інтервал - замість ранжування передостаннього абзацу - який максимізував би R (тобто Ета ) для вас. Це категорична регресія (= лінійна регресія з оптимальним масштабуванням).

Ще один підхід полягає у виконанні дерева класифікації , такого як CHAID, із порядковою змінною як предиктора. Ця процедура буде поєднана разом (отже, це підхід, протилежний попередньому) суміжних упорядкованих категорій, які не розрізняють категорії номінального передбачення. Тоді ви можете покластися на заходи асоціації на основі Chi-квадрата (наприклад, V Cramer's), як якщо б ви співвідносили номінальні та номінальні змінні.

А @Michael у своєму коментарі пропонує ще один спосіб - спеціальний коефіцієнт під назвою Тета Фрімана .

Отже, ми дійшли до таких можливостей: (1) Ранг, а потім обчислити Ету; (2) Використовуйте порядкову регресію; (3) Використовуйте категоричну регресію ("оптимально" перетворюючи порядкову змінну в інтервал); (4) Використовувати дерево класифікації ("оптимально" зменшуючи кількість замовлених категорій); (5) Використовуйте Тету Фрімана.

— ttnphns
джерело

PS В блозі Джеромія

— Англіма

Один міра асоціації між порядковим та номінальним називається " Фрімана ". На жаль, у мене немає жодної посилання на відкритий доступ.

θ

$\theta$

— Майкл М

@Michael спасибі, тут я знайшов документ "Подальша примітка щодо міри асоціації фрімана

— ttnphns

Для отримання додаткової інформації про тету Freeman та пакет R, що включає статистику, див. Це перехресне підтверджене питання .

— Sal Mangiafico

@ttnphns Вибачте, чи можете ви відповісти на це питання: stats.stackexchange.com/questions/363543/… Дякую.

— ebrahimi

Зробіть односторонній anova на відповідь, в якому місто є змінною групування. і дає повинно бути таким же , як і від регресії відповіді на містах фіктивних-кодований і повинен дорівнювати кратно з регресія. Множина - кореляція міста з відповіддю. $F$ $p$ $F$ $p$ $SS_{between\, cities}/SS_{total}$ $R^2$ $R$

— Рей Купман
джерело