Кореляції між неперервними та категоричними (номінальними) змінними


42

Я хотів би знайти співвідношення між суцільною (залежною змінною) та категоріальною (номінальною: стать, незалежна змінна) змінною. Постійні дані зазвичай не поширюються. Раніше я обчислював це за допомогою Spearman . Однак мені сказали, що це неправильно.ρ

Під час пошуку в Інтернеті я виявив, що boxplot може дати уявлення про те, наскільки вони пов’язані; однак я шукав кількісну величину, таку як коефіцієнт моменту продукту Пірсона або Spearman . Чи можете ви мені допомогти, як це зробити? Або повідомте, який метод був би доречним?ρ

Чи правильний варіант бипілеріального коефіцієнта буде правильним?


Зазвичай, не можна давати поради лише на основі формату даних! Що представляють дані та чого ви хочете досягти за допомогою свого аналізу?
kjetil b halvorsen

1
Дякую kjetil, я хотів би порівняти асоціацію між статтю та іншими постійними змінними. Просто знати, які безперервні змінні знаходяться в помірній / сильній кореляції, а які - не.
Пані Ферді Вахід

1
Схоже, що це дублікат stats.stackexchange.com/questions/25229/… Чи можете ви сказати нам, чи допоможуть вам відповіді?
kjetil b halvorsen

Так, моє запитання подібне до цього. Однак я отримав відгук, коли рецензент зазначив, що Spearman не підходить. Мій розмір вибірки - 31. Відповідно до відповіді (надається посилання), ненормальне не буде проблемою, і будь-який метод кореляції може використовуватися (Spearman / Pearson / Point-Biserial) для великого набору даних. Чи було б правдою і для невеликого набору даних? До речі, стать - це не штучно створена дихотомічна номінальна шкала. Наведене вище посилання повинно використовувати коефіцієнт бісеріальної кореляції. ρ
Пані Ферді Вахід

3
Кореляція між номінальною та інтервальною або порядковою змінною stats.stackexchange.com/q/73065/3277
ttnphns

Відповіді:


25

ρ(Zi,Ii)ZIρZ,IIρстане в основному деякою переробленою версією середніх рангів між двома групами. Було б простіше (більш тлумачно) просто порівняти засоби! Інший підхід полягає в наступному.

X1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjMXi<YjWθ
MM+W

5
Кореляція рангів Спірмена - це лише кореляція Пірсона, застосована до рангів числової змінної та значень вихідної бінарної змінної (ранжирування тут не впливає). Отже, rho Spearman є ранговим аналогом точково-бісеріальної кореляції. Я не бачу жодної проблеми в використанні опису Spearman в цій ситуації.
Майкл М

Майкл Майєр: Так, можливо, це може спрацювати, але чи є в цьому сенс? Він не дає інформації, яка не міститься в деякій різниці засобів! і це більш прямо тлумачимо.
kjetil b halvorsen

1
Чи різницю в чинах набагато простіше трактувати як rho Spearman? Навіть якщо це так, чи не так би ви назвали rho Спірмена неправильним? Сумно, що рецензенти не бачимо міркувань.
Майкл М

1
Те, що ти пропонуєш, приємно. Схоже, це пов'язано зі статистикою тесту двопробного тесту Вілкоксона, який сам по собі схожий на рангову кореляцію Кендалла між числовим результатом і змінною бінарної групи.
Майкл М

1
θθ^1θ

8

У мене зараз те саме питання. Я ще не бачив, щоб хтось посилався на це, але я досліджую кореляційну точку-бістеріальну кореляцію, яка будується за коефіцієнтом кореляції Пірсона. Це означає для безперервної змінної та дихотомічної змінної.

Швидке читання: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Я використовую R, але я вважаю, що SPSS має чудову документацію.


1
Відмінна орієнтир для пошуку кореляції між неперервною змінною та дихотомічною змінною! Однак перераховані припущення трохи сильні.
САНДОНГ

1

Здавалося б, найбільш прийнятним порівнянням було б порівняння медіанів (оскільки це не нормально) та розподілу між бінарними категоріями. Я б запропонував непараметричний тест Манна-Вітні ...


6
У той час як Ман-Уітні буде способом визначення зрушення місця розташування змінної (або взагалі більш загальної форми стохастичного домінування) через бінарну категоричну змінну, Ман-Вітні не порівнює медіанів, принаймні, без додаткових припущень.
Glen_b

1

Для вказаної проблеми може допомогти вимірювання площі під кривою кривої оператора приймача.

Я не є експертом у цьому, тому намагаюся зробити це просто. Будь ласка, прокоментуйте будь-яку помилку чи неправильну інтерпретацію, щоб я міг її змінити.

xyxxx

xx

xx

Вищенаведене твердження обчислюється за допомогою області під кривою.

Приклад хорошої кореляції (справа) та справедливої ​​антикореляції (зліва) Приклад хорошої кореляції (справа) та справедливої ​​антикореляції (зліва).


1
Ласкаво просимо в CV! Ваша відповідь трохи занадто коротка, і, здається, не допомагає знайти: "співвідношення між безперервною (залежною змінною) та категоріальною (номінальною: стать, незалежна змінна) змінною" . Чи можете ви відредагувати свою відповідь, щоб вказати, як AUROC повинен досягти цього?
Франс Роденбург

-3

ви повинні використовувати лінійну тенденцію, альтернативну незалежності. якщо ви цього не знаєте, ви можете вивчити вступ до категоричного аналізу даних, сторінка 41.


4
Вже є прийнята відповідь. І не ясно, що сприяє ваша відповідь. Чи можете ви пояснити більше? Я припускаю, що ви посилаєтесь на вступ Агресті до категоричного аналізу даних. Будь ласка, надайте повне цитування.
TEG - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.