Усереднення значень кореляції


20

Скажімо, я перевіряю, наскільки змінна Yзалежить від змінної Xв різних експериментальних умовах і отримую такий графік:

введіть тут опис зображення

Штрихові лінії на графіку вище представляють лінійну регресію для кожної серії даних (експериментальна установка), а цифри в легенді позначають співвідношення Пірсона кожного ряду даних.

Я хотів би обчислити "середню кореляцію" (або "середню кореляцію") між Xі Y. Чи можу я просто провести середнє rзначення? А як щодо "середнього критерію визначення", ? Чи слід обчислювати середнє значення і чим брати квадрат цього значення чи слід обчислювати середнє значення для окремих R 2 ?R2rR2

Відповіді:


15

Простий спосіб - додати категоричну змінну для ідентифікації різних експериментальних умов та включення її у свою модель разом із "взаємодією" з x ; тобто y z + x # z . Це проводить одразу всі п'ять регресій. Його R 2 - це те, що ви хочете.zхуz+х#zR2

Щоб зрозуміти, чому усереднення окремих значень може бути неправильним, припустимо, що напрямок нахилу змінюється в деяких експериментальних умовах. Ви б оцінили купу «1» та «-1» приблизно до 0, що не відображатиме якість жодного з пристосувань. Щоб зрозуміти, чому усереднення R 2 (або будь-яке його фіксоване перетворення) не є правильним, припустимо, що у більшості експериментальних умов у вас було лише два спостереження, так що їх R 2 всі дорівнювали 1 , але в одному експерименті у вас було сто спостережень з R 2 = 0 . Середня R 2, що становить майже 1, не відобразила б правильно ситуацію.RR2R21R2=0R2


1
пробачте моє незнання, але що означає знак # у вашій відповіді?
Борис Горелик

1
Я думаю, що ваша відповідь є дуже хорошою для загального розуміння використовуваної кореляції. Що робити, якщо вони означають це як середній стандартизований нахил (можливо, мається на увазі цифра)? У такому випадку ви хочете скасувати негативи та позитиви. Ви мертві щодо питання щодо розміру вибірки. Також розгляньте можливість переміщення коментаря у відповідь.
Іван

R2R2

±1R21

R2R21

24

Для коефіцієнтів кореляції Пірсона, як правило, доцільно перетворити значення r за допомогою перетворення Фішера z . Потім середнє значення z-значення та перетворення середнього значення назад у r- значення.

Я думаю, це було б добре і для коефіцієнта Спірмена.

Ось стаття та запис вікіпедії .


1
+1; Ця відповідь здається більш підходящою та загальною, ніж прийнята відповідь, проте, у конкретному випадку використання, чи не розпадеться вона на значення r? Чи є тут щось на кшталт емпіричного логіта, де можна було б просто "додати" точку даних, якій не вистачає кореляції? Якщо так, то де б його додати? Чи потрібно було б провести монто-карло-сим, схопивши дві випадкові змінні з вихідних розподілів? Крім того, можна просто підкоригувати r до деякого значення трохи менше 1? Наскільки далеко слід підлаштовуватися?
russellpierce

3

Середня кореляція може бути значущою. Також розглянемо розподіл кореляцій (наприклад, побудуйте гістограму).

н

м


1

Як щодо використання середнього квадратичного передбачуваного помилки (MSPE) для роботи алгоритму? Це стандартний підхід до того, що ви намагаєтеся зробити, якщо ви намагаєтеся порівняти показники прогнозування серед набору алгоритмів.


Я не впевнений, чому ця публікація stats.stackexchange.com/questions/17129/… була об'єднана з цією. На мій погляд, вони насправді задають два різні питання - є дві різні цілі.
СтатистикаСтудент

1
Ви маєте рацію: це різні питання. Я проголосував за повторне відкриття іншої посади (хоча який ефект може бути незрозумілим). Я прошу вибачення за те, що не побачив ваш коментар: якби ви замість цього позначили цю посаду, ми б звернули увагу на кілька років раніше!
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.