У мене є кілька цікавих даних про найпопулярніших музичних артистів, розподілених за місцем розташування на близько 200 округів Конгресу. Я хочу побачити, чи можна опитати людину на її музичні уподобання та визначити, чи він «вона слухає, як демократ», або «слухає як республіканець». (Природно, це легке серце, але в даних є справжня ентропія!)
У мене є дані про близько 100 артистів, плюс середній відсоток голосів за республіканців та демократів у кожному окрузі за останні три виборчі цикли. Тож я створив відповідність між кожним виконавцем, щоб побачити, кого з них пропорційно найбільше слухали як функцію розподілу голосів для демократів. Ці кореляції коливаються приблизно від -0,3 до 0,3 для будь-якого виконавця, з великою кількістю в середині, яка має мало або зовсім не передбачає сили.
У мене є два питання: По-перше, загальна кількість потоків на округ змінюється в широких межах. Зараз я співвідношу відсоток усіх потоків на округ, що належить, скажімо, Бейонсе, проти відсотка поданих голосів за демократів. Але загальна кількість потоків в одному районі може бути мільйонами, а в іншому - низькими 100 000. Чи потрібно мені якось зважувати співвідношення для обліку цього?
По-друге, мені цікаво, як поєднати ці кореляції у складену здогадку щодо політики користувача. Скажімо, я беру 20 художників з найвищими абсолютними співвідносними значеннями (позитивними та негативними), по десять у кожному напрямку, і опитую користувача, наскільки він чи вона подобається кожному виконавцю. Тож я маю голоси на кожного або іншого виконавця плюс співвідношення з політикою на всі 20 цінностей. Чи є стандартний спосіб об'єднати ці кореляції в одну оцінку? (Я думаю, щось подібне до знаменитої діалектної вікторини NYTimes , де вона поєднала регіональну ймовірність на 25 питань у теплій карті. Але в цьому випадку мені просто потрібне єдине значення щодо того, наскільки демократичний чи республіканський смак у музиці.
Дякую!