Перевірка значущості трьох і більше кореляцій за допомогою перетворення Фішера

Виходячи з своїх попередніх постів, наскільки я можу зрозуміти, якщо у мене є три коефіцієнти кореляції, мені доведеться перевірити їх парами, щоб побачити, чи є між ними значна різниця.

Це означає, що мені доведеться використовувати перетворення Фішера, щоб розробити z z r, а потім p значення z (що, на щастя, роблять рекомендовані калькулятори в попередніх постах), а потім встановити, чи значення p вище або нижче моє значення альфа (0,05) для кожної пари.

тобто якщо віком від 21 до 30 років є вікова група 1, 31 - 40 років - це вікова група 2, а 41 - 50 років - це вікова група 2, моє порівняння співвідношень між їхніми звичками щодо покупок та втратою ваги було б:

1 група проти 2 групи
1 група проти 3 групи
2 група проти 3 групи

Замість того, щоб робити три окремі обчислення, чи існує спосіб зробити всі ці обчислення за один крок?

correlation

— Адхеш Джош
джерело

Не могли б ви бути трохи детальніше? Як в - яка ваша відповідь, ваші пояснювальні змінні та які співвідношення вас цікавлять? Ви можете не перетворити Фішера для тестування кореляції, простий t-тест може бути достатнім.

— suncoolsu

@suncoolsu Я перевіряю співвідношення звички покупців та збільшення ваги для цих трьох груп. Мої результати такі: Група 1: r = .8978, n = 105; 2 група: r = .5678, n = 95; і група 3: r = .7865, n = 120.

— Adhesh Josh

Я думаю, ваші дані передають IOTT. Ось інтерокулярний тест на травму - він потрапляє вам між очима. Якщо співвідношення .9, .6 та .8 не відрізняються один від одного, що таке? Але якщо вас справді цікавить

— Пітер Флом

Відповіді:

Ваше запитання - прекрасний приклад регресійних моделей з кількісними та якісними предикторами. Зокрема, три вікові групи - - є якісними змінними, а кількісні змінні - звичками для покупок та втратою ваги (я здогадуюсь цього, тому що ви обчислюєте кореляції). $1,2, \& \,3$

Я мушу наголосити, що це набагато кращий спосіб моделювання, ніж обчислення окремих кореляцій у груповому відношенні, оскільки у вас є більше даних для моделювання, отже, ваші оцінки помилок (p-значень тощо) будуть більш надійними. Більш технічною причиною є отримані вище ступеня свободи в статистиці t-тесту для перевірки значущості коефіцієнтів регресії.

Діючи за правилом, що якісними предикторами можна обробляти змінні індикатори , тут потрібні лише дві змінні індикатори, , які визначаються наступним чином: $c$ $c-1$ $X_1, X_2$

X_{1} = 1 if person belongs to group 1; 0 otherwise .

$X_1 = 1 \text{ if person belongs to group 1}; 0 \text{ otherwise} .$

X_{2} = 1 if person belongs to group 2; 0 otherwise .

$X_2 = 1 \text{ if person belongs to group 2}; 0 \text{ otherwise}.$

Це означає, що група представлена ; представляти свою відповідь - торгові звички , як і кількісного пояснювальна втрати ваги змінної як . Тепер ви підходите до цієї лінійної моделі $3$ $X_1=0, X_2=0$ $Y$ $W$

Е [Y] = β_{0} + β_{1} Х_{1} + β_{2} Х_{2} + β_{3} W .

$E[Y]=\beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3W.$ Очевидне питання, чи не має значення, якщо ми змінимо і (тому що я випадково вибрав торгові звички як змінну відповідей). Відповідь - так - оцінки коефіцієнтів регресії будуть змінюватися, але тест на "асоціацію" між умовними групами (тут t-тест, але це те саме, що тестування на кореляцію для однієї змінної предиктора) не буде змінити. Особливо,

W

$W$

Y

$Y$

Е [Y] = β_{0} + β_{3} W - для третьої групи,

$E[Y]= \beta_0 + \beta_3W \text{ -- for third group},$

Е [Y] = (β_{0} + β_{2}) + β_{3} W - для другої групи,

$E[Y]= (\beta_0 + \beta_2)+\beta_3W \text{ -- for second group},$

Е [Y] = (β_{0} + β_{1}) + β_{3} W - для першої групи,

$E[Y]= (\beta_0 + \beta_1)+\beta_3W \text{ -- for first group},$ Це еквівалентно тому , що 3 окремих ліній, в залежності від груп, якщо ділянка проти . Це хороший спосіб візуалізувати те, на що ви тестуєте, має сенс (в основному це форма EDA і перевірка моделі, але вам потрібно правильно розмежувати згруповані спостереження). Три паралельні лінії вказують на відсутність взаємодії між трьома групами і , і багато взаємодії означає, що ці лінії будуть перетинатися один з одним.

Y

$Y$

W

$W$

W

$W$

Як проходять тести, які ви запитуєте. В основному, як тільки ви підходите до моделі і отримуєте оцінки, вам потрібно перевірити деякі контрасти. Спеціально для ваших порівнянь:

2 група - 3 група: β_{2} + β_{0} - β_{0} = 0,

$\text{Group 2 vs Group 3: } \beta_2 + \beta_0 - \beta_0 = 0,$

1 група - 3 група: β_{1} + β_{0} - β_{0} = 0,

$\text{Group 1 vs Group 3: } \beta_1 + \beta_0 - \beta_0 = 0,$

2 група - 1 група: β_{2} + β_{0} - (β_{0} + β_{1}) = 0.

$\text{Group 2 vs Group 1: } \beta_2 + \beta_0 - (\beta_0+\beta_1) = 0.$

— suncoolsu
джерело

Тестування на еквівалентність схилів відрізняється від тестування на еквівалентність кореляцій. Дивіться, наприклад: jessicagrahn.com/uploads/6/0/8/5/6085172/comparecorrcoeff.doc

— Вольфганг

Я погоджуюся, але для однієї змінної предиктора вони повинні бути однаковими через цю залежність .

t^{*} = \frac{ρ \sqrt{n - 2}}{\sqrt{1 - ρ^{2}}} \sim t_{n - 2}

$t^* = \frac{\rho\sqrt{n-2}}{\sqrt{1-\rho^2}} \sim t_{n-2}$

— suncoolsu

Також у вашому документі йдеться про порівняння різних груп населення, що не стосується єдиного прогноктора.

— suncoolsu

Справа в тому, що може бути правдою, тоді як може бути помилковим (і навпаки). Кореляція між X і Y залежить не тільки від , але і відхилення у X та відхилення в помилках. Якщо дисперсія у X та / або помилках відрізняється у трьох групах, ви перевіряєте різні гіпотези.

H_{0} : β_{1} = β_{2} = β_{3}

$H_0: \beta_1 = \beta_2 = \beta_3$

H_{0} : ρ_{1} = ρ_{2} = ρ_{3}

$H_0: \rho_1 = \rho_2 = \rho_3$

β

$\beta$

— Вольфганг

Так, ви маєте рацію (як я вже говорив раніше), але моя відповідь передбачає, що ОП була зацікавлена у визначенні взаємозв'язку між wt.loss та торговими звичками на основі груп (не обов'язково кореляційних). Я думаю, я помилявся, оскільки ОП прийняла іншу відповідь. Тим не менш, ця відповідь слугує корисною альтернативою (сподіваюся).

— suncoolsu

Паралельне тестування в цій ситуації не є (поки) виправданим описом даних. Ви повинні використовувати багатозмінні методи регресії. R-дзвінок може бути:

lm( weight_end ~ shop_habit + age_grp + weight_begin)

Побудова 3 категорій не є найкращим методом контролю за віком (або аналізу його внеску, якщо це головне питання), оскільки категоризація може спотворювати безперервні взаємозв'язки, а терміни сплайнування усувають необхідність вибору довільних розділених точок. Як тільки з’явиться достатньо доказів асоціації зміни ваги після належного аналізу, з’являться спеціальні варіанти тестування, які можна розгорнути.

(Я погоджувався з більшістю того, що @whuber висловив у коментарі, і я, як правило, вважаю його коментар авторитетним, але не розумію його позиції щодо регресійних підходів.)

— DWin
джерело