Чи вводить в оману "середній рейтинг" Amazon?


49

Якщо я правильно розумію, рейтинги книг за шкалою 1-5 - це бали Лікерта. Тобто, 3 для мене не обов'язково може бути 3 для когось іншого. Це порядковий масштаб ІМО. Насправді не слід мати середню порядкову шкалу, але, безумовно, можна приймати режим, медіану та процентилі.

Тож чи «нормально» дотримуватись правил, оскільки значна частина населення розуміє засоби, ніж наведені вище статистичні дані? Хоча науково-дослідне співтовариство рішуче заперечує за те, що він використовує середні показники за шкалою Лікерта, чи добре це робити з масами (практично) Чи брати середній показник у цьому випадку навіть вводити в оману?

Здається, малоймовірно, що така компанія, як Amazon, натрапила на основні статистичні дані, але якщо ні, то чого мені тут не вистачає? Чи можемо ми стверджувати, що порядковий шкала є зручним наближенням до порядкової для обгрунтування прийняття середнього? На яких підставах?


3
Якщо 3 для вас не те саме, що 3 для когось іншого, то у вас навіть немає масштабу: у вас є колекція незрівнянних вимірів, і ви мало чого зможете зробити для їх узагальнення. Порядковість шкали полягає в тому, що (а) значення можна порівнювати, тож ваші 3 і мої 3 означають одне і те ж, але (б) числові відмінності значень безглузді, окрім їх знаків, так що (скажімо) два 3-х, а 4 і 2, або 5 і 1 можна поставити в будь-якому порядку, хоча за чисельністю кожна пара оцінок має однакове середнє значення і медіану.
whuber

1
@whuber - але чи не правда, що 2 людини можуть не поділяти таку саму думку за шкалою 1-9 щодо цифр? А 6 для мене справді не може бути 6 для когось іншого, якщо вони не мають заздалегідь визначеної шкали для проходження?
Кандидат наук

1
Нещодавно я прочитав один відгук на Amazon, в якому сказано: "Блискучий продукт не може його помилити. Я ніколи не дав би нічого 5 зірок, тому нагородив 4". Якщо це не перекосить середину, то я не знаю, що це
Метт Вілко

2
@Wilko Ви говорите про розбіжності в думках, а не про відмінності в масштабі. Навіть коли масштаб дуже ретельно калібрується, як (скажімо) підрахунок гімнастики або фігурного катання, або міжнародна шкала для оцінювання складності порогів на річках, і навіть коли фахівці навчаються використовувати цю шкалу, зміни все одно будуть. Це, як правило, не трактується як доказ, шкала є суб'єктивною: вона трактується як розбіжність серед суддів.
whuber

1
Вибачте, це насправді не відповідь, але, на жаль, я не зміг знайти функцію "коментар". Нещодавно я почав писати магістерську роботу про ключові елементи відгуків клієнтів. Враховуючи наступні обставини, я також почав сумніватися у важливості 5-зіркової системи Amazon. - Кількість недовірливих відгуків - Вплив рейтингових упереджень та J-Curves ( buildingreputation.com/writings/2009
derPio

Відповіді:


42

Переваги використання середнього для узагальнення центральної тенденції 5-бального рейтингу

Як згадував @gung, я думаю, що часто буває дуже вагомих причин вважати середнє значення п'ятибального пункту як індекс центральної тенденції. Я вже виклав ці причини тут .

Перефразовуючи:

  1. середнє значення легко підрахувати
  2. Середина інтуїтивно зрозуміла і добре зрозуміла
  3. Середнє значення - це єдине число
  4. Інші показники часто дають подібне рангове впорядкування об'єктів

Чому середина корисна для Амазонки

Подумайте про цілі Амазонки в повідомленні про середню. Вони, можливо, мають на меті

  • забезпечити інтуїтивну та зрозумілу оцінку предмету
  • забезпечити прийняття користувачем рейтингової системи
  • переконайтесь, що люди розуміють, що означає рейтинг, щоб вони могли відповідним чином використовувати його для інформування про рішення щодо придбання

Amazon надає якусь округлу середню величину, підрахунок частоти для кожного варіанту рейтингу та розмір вибірки (тобто кількість оцінок). Цієї інформації, мабуть, достатньо, щоб більшість людей оцінили як загальні настрої щодо предмета, так і впевненість у такому рейтингу (тобто, 4,5 з 20 рейтингами є більш імовірними, ніж 4,5 з 2 рейтингами; предмет з 10 5 -зірковий рейтинг, а також одна зіркова оцінка без коментарів все ще може бути хорошою позицією).

Ви навіть можете бачити середину як демократичний варіант. Багато виборів вирішуються, виходячи з того, який кандидат отримує найвищу оцінку за двобальною шкалою. Аналогічно, якщо ви берете аргумент, що кожна людина, яка подає рецензію, отримує голос, то ви можете бачити середнє значення як форму, яка зважує голос кожної людини однаково.

Чи справді проблеми в масштабах використання є проблемою?

Існує широкий спектр рейтингових ухилів, відомих у психологічній літературі (огляд див. Saal et al 1980), такі як зміщення центральної тенденції, зміщення поблажливості, зміщення строгості. Також деякі рейтинги будуть більш довільними, а деякі - більш надійними. Деякі можуть навіть систематично брехати, даючи підроблені позитивні чи підроблені негативні відгуки. Це створить різні форми помилок при спробі обчислити справжню середню оцінку для елемента.

Однак, якби ви взяли випадкову вибірку населення, такі зміщення скасуються, і при достатньому розмірі вибірки рейтингів ви все одно отримаєте справжню середню оцінку.

Звичайно, ви не отримаєте випадкової вибірки на Amazon, і є ризик того, що конкретний набір рейтингів, які ви отримуєте за предмет, систематично упереджується бути більш м'яким або суворим тощо. Зважаючи на це, я думаю, що користувачі Amazon оцінять, що представлені користувачем рейтинги походять із недосконалої вибірки. Я також думаю, що цілком ймовірно, що при розумному розмірі вибірки, що у багатьох випадках більшість відмінностей у відповіді на зміну відповідей почнуть зникати.

Можливі аванси понад середні

Що стосується підвищення точності рейтингу, я не став би оскаржувати загальну концепцію середнього значення, але, швидше за все, думаю, що існують інші способи оцінки реального середнього рейтингу сукупності для предмета (тобто середній рейтинг, який буде отриманий були великим представницьким зразком, який просили оцінити предмет).

  • Вагові рейтинги грунтуються на їх надійності
  • Використовуйте байєсівську рейтингову систему, яка оцінює середній рейтинг як середньозважену суму середнього рейтингу для всіх позицій та середнього значення для конкретного предмета, і збільшуйте зважування для конкретного предмета у міру збільшення кількості рейтингів
  • Налаштуйте інформацію рейтингу, грунтуючись на будь-якій загальній тенденції до рейтингу в різних предметах (наприклад, 5 від того, хто зазвичай дає 3, коштував би більше, ніж той, хто зазвичай дає 4).

Таким чином, якщо точність в рейтингу була основною метою Amazon, я думаю, що слід намагатися збільшити кількість рейтингів за позицію та прийняти деякі з перерахованих вище стратегій. Такі підходи можуть бути особливо актуальними при створенні рейтингу "найкращих". Однак для покірного рейтингу на сторінці цілком можливо, що вибіркове значення краще відповідає цілям простоти та прозорості.

Список літератури

  • Saal, FE, Downey, RG & Lahey, MA (1980). Оцінка рейтингів: Оцінка психометричної якості рейтингових даних .. Психологічний вісник, 88, 413.

1
+1. Я думаю, що це виходить за рамки / розширює вашу попередню відповідь дуже приємно. Особливо мені подобається розділ про те, «чому середня користь для Амазонки», де чіткіше перераховано те, що я намагався отримати в своєму останньому реченні. "Різне використання шкали" також досить проникливе; Буду вдячний на перегляд цієї літератури, якщо ви знаєте хорошу. Зауважу, що останній розділ дещо напружений з 2-го.
gung - Відновіть Моніку

2
Дякую. Я додав посилання на рейтингову літературу з ухилом і додав щось наприкінці, що намагається узгодити дві точки зору.
Джеромі Англім

2
+1 @JeromyAnglim - ретельна перспектива, яка кидає світло на різні аспекти проблеми. Кудо!
Кандидат

+1, чудова відповідь. Хоча я знайшов одне речення трохи оманливим. Коли ви сказали "Однак, якби ви взяли випадкову вибірку населення, такі ухили скасуються, і при достатньому розмірі вибірки рейтингів ви все одно отримаєте справжню середню". - Я не думаю, що це стосується всіх упереджень, навіть якщо ви мали випадкову вибірку населення.
Михайло Єпископ

1
@MichaelBishop Дякую, я згоден, моя мова там була трохи неохайною. Я думаю, це залежить від того, що мається на увазі під «справжньою середньою». Я можу бачити, як якщо у вас є фальшивки в популяції, це може змістити необмежене населення на відміну від гіпотетичного "справжнього значення". Я більше думав, що будь-які систематичні упередження людей, які стосуються всіх предметів, скасують, щоб дозволити неупереджене упорядкування позицій на основі результатів.
Джеромі Англім

15

Щоб бути дещо технічним, ці рейтинги насправді не є шкалою Лікерта ; вони просто порядкові оцінки. Тепер, сказавши це, ваш погляд по суті правильний. Однак я часто думаю, що надто багато робиться в цьому питанні. Варто зазначити, що зазвичай розуміється, що середнє число порядкових пунктів може бути приблизно інтервальним, і, таким чином, коли є багато оцінок, середнє значення стає більш розумним поданням. Я вважаю цю відповідь @JeromyAnglim чудовою (насправді, питання та всі відповіді, які там знаходяться, варто прочитати). Більш теоретичне лікування дивіться тут. З іншого боку, мені подобається Amazon, але я не бачу причин чекати від них статистичної витонченості, особливо в плані базового дизайну сайтів - справа в зручності використання споживачами, а не на враження статистики професорів.


2
Amazon був одним з лідерів у галузі (Інтернет) технологій в галузі експериментального дизайну для реклами в Інтернеті та використання веб-сайтів. Ви можете бути впевнені, що насправді вони досить складні у своїх статистичних підходах. :-) Ваша думка хороша. Щоб зробити невеликий крок далі, ви можете собі уявити, якби Amazon робив щось "складніше", а хтось перевіряв їх, використовуючи просте середнє, виявив, що деякі елементи були віднесені до "вищого", ніж інші, а інші "нижчого", підвищивши метушня і покидання Amazon намагаються пояснити свої "приховані упередження" щодо продуктів?
кардинал

1
Інші сервіси, наприклад, Netflix, уникають цієї проблеми, лише надаючи "підсумкові" дані. :)
кардинал

@cardinal, це дуже цікаво, я не знав цього про Amazon.
gung - Відновіть Моніку

15

Усі мають добру думку з цього приводу. Я не думаю, що я можу додати дуже багато іншого. Однак я опублікую це :


7
Я думаю, що комікс підкреслює, що деякі люди погані судді щодо якості предмета, і, усереднюючи багато таких людей, ви отримуєте поганий середній показник. Загалом мудрість натовпу говорить про те, що середні показники працюють досить добре там, де хоча б розумна частка людей має певні знання. Зважування рейтингів на надійність також може бути однією стратегією подолання проблем.
Джеромі Англім

1
Іншим варіантом є використання рекомендацій стилю Netflix шляхом порівняння рейтингу з рейтингами інших користувачів, а потім усереднення рейтингів, пропонованих користувачами з аналогічним вибором, як ви.
rahul

1
@rahul Це хороший момент. У своїй відповіді часом я припускаю, що рейтинги є значною мірою правдивими оцінками + помилка, навіть якщо є помилка структури. Але якщо мова йде про домени, де особисті переваги є частиною визначення якості, це не завжди має стільки сенсу.
Джеромі Англім

Мені це подобається, і саме тому (як споживач) я намагаюся читати відгуки, а не просто дивитися на кількість зірок. Але я подумав, що іронічно, що в цьому випадку більш "складніші" методи медіани, режиму та відсотків дають гірший результат, ніж середній ;-)
Даррен Кук,

3

На мій досвід, середнє значення рейтингової шкали часто найтісніше співвідноситься з рівнем реальних показників, які ми намагаємося пов'язати з рейтинговою шкалою. Ми знайшли багато лінійних зв’язків, і тому середнє значення є одним з кращих способів узагальнення даних. Якщо говорити, як зазначав Джеромі, більшість способів аналізу центральної тенденції рейтингової шкали даватиме аналогічні результати (рангові накази тощо) більшу частину часу.

Також, я підозрюю, що Amazon, мабуть, не все стосується наукової обгрунтованості так чи інакше. Зрештою, ціль Amazon - змусити людей більше купувати покупки на Amazon.com, і те, як відгуки допомагають досягти цього, напевно, не буде відрізнятися залежно від резюме з одним номером. Хороші продукти будуть винагороджені, справді погані продукти покарані, а нервові покупці матимуть можливість детальніше переглянути плюси та мінуси.


2

Рейтинги Amazon вводять в оману через компанії, які грають у цю систему. Коли клієнтам пропонують знижки та безкоштовні товари натомість за 5-зіркові огляди, "статистика" того, який номер рейтингу є чи означає, стає суперечливим.


1
Чи є у вас дані про те, як часто такі речі трапляються?
Єпископ Михайло

1

Ви робите гарний момент. Прийняття середнього порядку порядкових чисел дещо вводить в оману. Будь-яке підсумок кількох рейтингів страждає від того, що мої суб'єктивні 3 можуть насправді дорівнювати вашим 4. Тож поєднання різних індивідуальних балів - це, мабуть, найбільша проблема. Інтерпретація середнього рівня 3 та 4 як 3,5 не є настільки яскравим.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.