Вага системи оцінювання, щоб віддати перевагу предметам, що оцінюються значно більшою кількістю людей над предметами, оціненими на меншу кількість людей?

Заздалегідь дякую за те, що зі мною я не є статистикою, і не знаю, як описати те, що я собі уявляю, тому Google мені тут не допомагає ...

Я включаю систему оцінювання у веб-програму, над якою працюю. Кожен користувач може оцінювати кожен елемент рівно один раз.

Я уявляв шкалу з 4 значеннями: "сильно не подобається", "не подобається", "подобається" і "сильно подобається", і я планував присвоїти ці значення відповідно -5, -2, +2 і +5 відповідно .

Тепер, якщо кожен предмет матиме однакову кількість оцінок, то мені було б цілком комфортно з цією системою балів, як чітко розмежувати найбільш вподобані та найменш сподобалися елементи. Однак пункти не матимуть однакової кількості оцінок, а розбіжність між кількістю голосів на різних фотографіях може бути досить драматичним.

У такому випадку порівняння сукупних балів за двома пунктами означає, що старий предмет з безліччю посередніх оцінок матиме набагато вищу оцінку, ніж винятковий новий предмет із значно меншою кількістю голосів.

Отже, перше очевидне, що я думав про нас - середній показник ... але тепер, якщо елемент має лише один рейтинг "+5", він має кращий середній показник, ніж предмет, який має оцінку 99 "+5". та 1 "+2" рейтинг. Інтуїтивно це не є точним відображенням популярності товару.

Я думаю, що ця проблема є загальною, і ви, хлопці, не потребую, щоб я вважав це більше прикладами, тому я зупинюсь на цьому і детально пишу в коментарях, якщо потрібно.

Мої запитання:

Як називається така проблема, і чи існує термін для методик, які використовуються для її вирішення? Я хотів би це знати, щоб я міг прочитати на ньому.
Якщо вам трапляється знати про будь-які сприятливі для цього ресурси ресурси, я дуже вдячний за посилання.
Нарешті, я вдячний за будь-які інші пропозиції щодо ефективного збору та аналізу такого роду даних.

scales rating

— Андрій
джерело

Відповіді:

Одним із способів боротьби з цим є використання пропорцій у кожній категорії, що не вимагає, щоб ви вводили цифри для кожної категорії (ви можете залишити це як 80% з оцінкою як "сильно подобається"). Однак пропорції страждають від невеликої кількості рейтингів . Це відображається у вашому прикладі Фото з оцінкою 1 +5 отримало б більший середній бал (і пропорція), ніж один з рейтингом 99 +5 та 1 +2. Це не відповідає моїй інтуїції (і я підозрюю, що більшість людей).

Один із способів подолати цю проблему з невеликим розміром вибірки - використовувати байєсівську методику, відому як " правило наступності Лапласа " (пошук цього терміна може бути корисним). Він просто включає додавання 1 «спостереження» до кожної категорії перед обчисленням ймовірностей. Якщо ви хочете взяти середнє значення для числового значення, я б запропонував середньозважене значення, де ваги - це ймовірність, обчислена за правилом послідовності.

Для математичної форми нехай $n_{sd},n_{d},n_{l},n_{sl}$ позначають кількість відповідей "сильно не подобається", "не подобається", "подобається" та "сильно подобається" відповідно (у двох прикладах, $n_{sl}=1,n_{sd}=n_{d}=n{l}=0$ і $n_{sl}=99,n_{l}=1,n_{sd}=n_{d}=0$ ). Потім ви обчислюєте ймовірність (або вагу) для сильно подібних як

П r ("Сильно подобається") = \frac{н_{с л} + 1}{н_{с г} + н_{г} + н_{л} + н_{с л} + 4}

$Pr(\text{"Strongly Like"}) = \frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

У двох прикладах, які ви наводите, вони дають ймовірність "сильно подобається" як $\frac{1+1}{1+0+0+0+4}=\frac{2}{5}$ і $\frac{99+1}{99+1+0+0+4}=\frac{100}{104}$ що, я думаю, більше погоджуюсь із "здоровим глуздом". Видалення доданих констант дають $\frac{1}{1}$ і $\frac{99}{100}$ що робить перший результат вищим, ніж повинен бути (принаймні, для мене в будь-якому випадку).

Відповідні бали якраз і визначаються середньозваженою величиною, яку я написав нижче як:

S c о r е = \begin{matrix} 5 \frac{н_{с л} + 1}{н_{с г} + н_{г} + н_{л} + н_{с л} + 4} + 2 \frac{н_{л} + 1}{н_{с г} + н_{г} + н_{л} + н_{с л} + 4} \\ - 2 \frac{н_{г} + 1}{н_{с г} + н_{г} + н_{л} + н_{с л} + 4} - 5 \frac{н_{с г} + 1}{н_{с г} + н_{г} + н_{л} + н_{с л} + 4} \end{matrix}

$Score=\begin{array}{1 1} 5\frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}+2\frac{n_{l}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} \\ - 2\frac{n_{d}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} -5\frac{n_{sd}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}\end{array}$

Або більш лаконічно як

S c о r е = \frac{5 н_{с л} + 2 н_{л} - 2 н_{г} - 5 н_{с г}}{н_{с г} + н_{г} + н_{л} + н_{с л} + 4}

$Score=\frac{5 n_{sl}+ 2 n_{l} - 2 n_{d} - 5 n_{sd}}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

Що дає бали у двох прикладах $\frac{5}{5}=1$ і $\frac{497}{104}\sim 4.8$ . Я думаю, що це показує відповідну різницю між двома випадками.

Це, можливо, було трохи "математичним", тому дайте мені знати, якщо вам потрібно більше пояснень.

— ймовірністьіслогічна
джерело

Це було для мене трохи "математичним", і я спочатку не розумів формулу, але я уважно прочитав її близько трьох разів, і вона клацнула! Це саме те , що я шукав, і ваше пояснення було дуже зрозумілим, навіть для того, хто взагалі не є математиком чи статистиком. Дуже дякую!

— Андрій

Дуже приємна нетехнічна відповідь, і такий підхід я б не подумав. Я лише додам, що можна додати будь-яку кількість підроблених «спостережень» до кожної категорії замість 1, включаючи не цілі числа. Це дає вам можливість вирішити, скільки ви хочете "зменшити" до нуля кількість пунктів з кількома голосами. І якщо вам здається, що ви хочете охарактеризувати технічний огляд цього методу, ви можете сказати, що ви проводите байєсовський аналіз даних з багаточленного розподілу, використовуючи симетричний до цього Діріхле.

— onestop

Хоча вони можуть здаватися "фальшивими" спостереженнями, вони мають чітко визначене значення, коли воно дорівнює +1 (на відміну від +2 або вище, що насправді є "фальшивими" числами або числами з попереднього збору даних). Це в основному описує стан знань , що це можливо для кожної категорії, голосування за, до для дотримання будь - яких даних. Це саме те, що робить квартира до (N-1) симплексу.

— ймовірністьлогічний

Ще одне спостереження для майбутніх людей, які знайдуть цю посаду: Втілюючи це в свою модель, я взяв підсумковий бал і помножив його на 20, що дає діапазон від -100 до 100 від найгіршого до найкращого можливого балу (хоча технічно я вважаю, що це - це межі, яких ти не можеш досягти, але ти зрозумієш). Це робить результат для користувачів мого додатка дуже інтуїтивним!

— Андрій

@probabilityislogic: напевно, будь-які строго позитивні параметри для Dirichlet попередньо описують, що всі ймовірності суворо між 0 і 1? І цей аргумент пропонує встановити їх до 2 / м, де m - кількість категорій, а не 1: en.wikipedia.org/wiki/…

— onestop

Я б взяв графічний підхід. Вісь x може бути середньою оцінкою, а y може бути кількістю оцінок. Раніше я це робив зі спортивною статистикою, щоб порівняти внесок молодих феноменів із внеском ветеранських зірок. Чим ближче точка знаходиться до правого верхнього кута, тим ближче до ідеалу. Звичайно, рішення щодо "найкращого" пункту все-таки було б суб'єктивним рішенням, але це забезпечило б певну структуру.

Якщо ви хочете побудувати середній рейтинг щодо іншої змінної, тоді ви можете встановити кількість рейтингів як третю змінну, використовуючи розмір бульбашки, в графіку бульбашок - наприклад, в XL або SAS.

— rolando2
джерело