Така річ, як зважене співвідношення?

У мене є кілька цікавих даних про найпопулярніших музичних артистів, розподілених за місцем розташування на близько 200 округів Конгресу. Я хочу побачити, чи можна опитати людину на її музичні уподобання та визначити, чи він «вона слухає, як демократ», або «слухає як республіканець». (Природно, це легке серце, але в даних є справжня ентропія!)

У мене є дані про близько 100 артистів, плюс середній відсоток голосів за республіканців та демократів у кожному окрузі за останні три виборчі цикли. Тож я створив відповідність між кожним виконавцем, щоб побачити, кого з них пропорційно найбільше слухали як функцію розподілу голосів для демократів. Ці кореляції коливаються приблизно від -0,3 до 0,3 для будь-якого виконавця, з великою кількістю в середині, яка має мало або зовсім не передбачає сили.

У мене є два питання: По-перше, загальна кількість потоків на округ змінюється в широких межах. Зараз я співвідношу відсоток усіх потоків на округ, що належить, скажімо, Бейонсе, проти відсотка поданих голосів за демократів. Але загальна кількість потоків в одному районі може бути мільйонами, а в іншому - низькими 100 000. Чи потрібно мені якось зважувати співвідношення для обліку цього?

По-друге, мені цікаво, як поєднати ці кореляції у складену здогадку щодо політики користувача. Скажімо, я беру 20 художників з найвищими абсолютними співвідносними значеннями (позитивними та негативними), по десять у кожному напрямку, і опитую користувача, наскільки він чи вона подобається кожному виконавцю. Тож я маю голоси на кожного або іншого виконавця плюс співвідношення з політикою на всі 20 цінностей. Чи є стандартний спосіб об'єднати ці кореляції в одну оцінку? (Я думаю, щось подібне до знаменитої діалектної вікторини NYTimes , де вона поєднала регіональну ймовірність на 25 питань у теплій карті. Але в цьому випадку мені просто потрібне єдине значення щодо того, наскільки демократичний чи республіканський смак у музиці.

Дякую!

— Кріс Вілсон
джерело

Формула для зваженого кореляції Пірсона можна легко знайти на веб , StackOverflow і Вікіпедії і реалізується в декількох пакетів R , наприклад , психологічно , або ваги , а в Пайтона statsmodels пакеті. Він обчислюється як звичайна кореляція, але з використанням зважених засобів ,

м_{Х} = \frac{\sum_{i} ш_{i} х_{i}}{\sum_{i} ш_{i}}, м_{Y} = \frac{\sum_{i} ш_{i} у_{i}}{\sum_{i} ш_{i}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

зважені відхилення ,

с_{Х} = \frac{\sum_{i} ш_{i} (х_{i} - м_{Х})^{2}}{\sum_{i} ш_{i}}, с_{Y} = \frac{\sum_{i} ш_{i} (у_{i} - м_{Y})^{2}}{\sum_{i} ш_{i}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

і зважена коваріація

с_{Х Y} = \frac{\sum_{i} ш_{i} (х_{i} - м_{Х}) (у_{i} - м_{Y})}{\sum_{i} ш_{i}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

маючи все це, ви можете легко обчислити зважене співвідношення

ρ_{Х Y} = \frac{с_{Х Y}}{\sqrt{с_{Х} с_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

Щодо вашого другого питання, наскільки я його розумію, у вас є дані про співвідношення між політичною орієнтацією та уподобанням двадцяти артистів та користувачів, двійкові відповіді про його / її переваги, і ви хочете отримати якусь сукупну міру цього.

$z$

\bar{ρ} = {тан}^{- 1} (\frac{\sum_{j = 1}^{К} тан (ρ_{j})}{К})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

В основному, дотичні коефіцієнти кореляції "згладжують" крайні значення (див. Нижче), тому вони мають менший вплив на остаточну оцінку і робить їх розподіл ближчим до нормального. Цю процедуру також описали Бушман і Ванг (1995) та Корі, Данлап і Берк (1998).

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{i} = {тан}^{- 1} (\frac{\sum_{j = 1}^{К} тан (r_{j} х_{i j})}{К})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$ .

Але ...

Ви не думаєте, що все це є надмірним для чогось, що в основному є проблемою множинної регресії? Натомість усього зважування та усереднення ви можете просто скористатися зваженою багаторазовою регресією (лінійною або логістичною залежною, якщо ви прогнозуєте бінарну перевагу або ступінь відхилення від переваг в будь-якому напрямку), де ваги базуються на розмірах підпробовід. Ви б використовували музичні уподобання кожного виконавця як передбачувача. Зрештою, ви скористаєтеся перевагою користувача, щоб зробити прогнози. Цей підхід простіший і статистично елегантний. Це також стосується відносноговаги для артистів, а усереднення кореляцій не виправляє їх відносного "впливу" на остаточну оцінку. Більше того, регресія враховує базову ставку (або політичну орієнтацію за замовчуванням), тоді як усереднення кореляцій не має. Уявіть, що переважна більшість населення віддає перевагу партії $A$ , це повинно змусити вас не бажати передбачати $B$ і регресія пояснює це, включаючи перехоплення. Єдина проблема - мультиколінеарність, але, коли усереднювати кореляції, ви ігноруєте її, а не маєте справу з нею.

Bushman, BJ, & Wang, MC (1995). Порядок поєднання вибіркових коефіцієнтів кореляції та підрахунку голосів для отримання оцінки та інтервалу довіри для коефіцієнта кореляції чисельності. Психологічний вісник, 117 (3), 530.

Corey, DM, Dunlap, WP і Burke, MJ (1998). Усереднення кореляцій: очікувані значення та ухили у комбінованих перетвореннях Пірсона та Фішера z, Журнал загальної психології, 125 (3), 245-261.

— Тім
джерело

Дякую! Це надзвичайно допомагає. Присуджує нагороду, коли вона стане доступною пізніше сьогодні.

— Кріс Вілсон

@Tim Як обчислюється зважена коваріація у випадках, коли

x_{i}

$x_i$ і

y_{i}

$y_i$ мають різні ваги надійності?

— Кагарач

@Kagaratsch Я ніколи не бачив такої формули. Це кваліфікується як приємне запитання.

— Тім