Як сказав у своїй відповіді Карл Броман, байєсівський підхід, ймовірно, буде набагато кращим, ніж використання довірчих інтервалів.
Проблема з інтервалом довіри
Чому можливо використання довірчих інтервалів не надто добре? Однією з причин є те, що якщо у вас не так багато оцінок для товару, то ваш інтервал довіри буде дуже широким, тому нижня межа довірчого інтервалу буде невеликою. Таким чином, елементи без багатьох оцінок опиняться внизу списку.
Однак інтуїтивно ви, мабуть, хочете, щоб предмети без багатьох рейтингів були близько середнього предмета, тому ви хочете змінити оціночну оцінку товару на середню оцінку для всіх предметів (тобто ви хочете підсунути свій оціночний рейтинг до попереднього ) . Саме цим займається байєсівський підхід.
Баєсовий підхід I: нормальний розподіл за рейтингами
Один із способів переміщення оціночного рейтингу до попереднього - це, як у відповіді Карла, використання оцінки форми :w∗R+(1−w)∗C
- R - середнє значення за рейтингами предметів.
- C - середнє значення для всіх предметів (або будь-якого раніше, до якого ви хочете зменшити рейтинг).
- Зверніть увагу , що формула є лише зваженої комбінацією і .RC
- w=vv+m - вага, присвоєна , де - кількість відгуків на пиво, а - якийсь постійний параметр "поріг".Rvm
- Зверніть увагу , що при дуже велике, тобто, коли у нас є багато оцінки для поточного елемента, то дуже близько до 1, так що наш рейтинг по оцінками дуже близька до , і ми звертаємо мало уваги на попередньому рівні . Коли мала, проте, дуже близько до 0, тому попередні оцінки ставить багато ваги на попередньому рівні .vwRCvwC
Справді, ця оцінка може бути дана байєсівською інтерпретацією як задньою оцінкою середнього рейтингу предмета, коли окремі рейтинги походять від звичайного розподілу, зосередженого навколо цього значення.
Однак, якщо припустити, що рейтинги надходять від звичайного розподілу, є дві проблеми:
- Нормальний розподіл безперервний , але рейтинги дискретні .
- Оцінки для предмета не обов'язково повинні відповідати одномодальній гауссовій формі. Наприклад, можливо, ваш предмет дуже поляризуючий, тому люди, як правило, або дають йому дуже високу оцінку, або дають йому дуже низьку оцінку.
Баєсовий підхід II: Мультиноміальне розподіл за рейтингами
Отже, замість того, щоб вважати нормальним розподіл для рейтингів, припустимо багаточленове розподіл. Тобто, враховуючи якийсь конкретний елемент, є ймовірність що випадковий користувач дасть йому 1 зірку, ймовірність що випадковий користувач дасть йому 2 зірки тощо.p1p2
Звичайно, ми не маємо уявлення, що це за ймовірності. Оскільки ми отримуємо все більше і більше оцінок для цього елемента, ми можемо здогадатися, що близький до , де - це кількість користувачів, які дали йому одну зірку, а - загальна кількість користувачів, які оцінили пункт, але коли ми вперше починаємо, у нас нічого немає. Таким чином , ми розміщуємо Діріхле перед на цих можливостях.p1n1nn1n Dir(α1,…,αk)
Що це за Діріхлет раніше? Ми можемо вважати, що кожен параметр є "віртуальним рахунком" кількості разів, яку віртуальна людина давала елемент зірки. Наприклад, якщо , , а всі інші дорівнюють 0, то ми можемо подумати про це як про те, що двоє віртуальних людей дали предмету 1 зірку, а одна віртуальна людина дала предмет 2 зірок. Отже, перш ніж ми навіть отримаємо реальних користувачів, ми можемо використовувати цей віртуальний дистрибутив, щоб дати оцінку рейтингу товару.αiiα1=2α2=1αi
[Одним із способів вибору параметрів було б встановити рівну загальній пропорції голосів зірок. (Зверніть увагу, що параметри не обов'язково є цілими числами.)]α i i α iαiαiiαi
Потім, як тільки дійсні рейтинги приходять, просто додайте свої рахунки до віртуальних підрахунків вашого Діріхле до попереднього. Щоразу, коли ви хочете оцінити рейтинг товару, просто перейміть середнє значення для всіх рейтингів товару (як його віртуальних, так і реальних оцінок).