Як знайти інтервали довіри для оцінок?

32

Еван Міллер " Як не сортувати за середньою оцінкою " пропонує використовувати нижню межу довірчого інтервалу, щоб отримати розумний сукупний "бал" за рейтингові позиції. Однак це працює з моделлю Бернуллі: рейтинги є великими пальцями вгору або великими пальцями вниз.

Який розумний інтервал довіри використовувати для рейтингової моделі, яка призначає дискретний бал від до зірок, припускаючи, що кількість оцінок для елемента може бути невеликим? $1$ $k$

Я думаю, що я бачу, як адаптувати центр інтервалів Вілсона та Агрешті-Кулла

\tilde{p} = \frac{\sum_{i = 1}^{n} x_{i} + z_{α / 2}^{2} p_{0}}{n + z_{α / 2}^{2}}

$\tilde{p} = \frac{\sum_{i=1}^n{x_i} + z_{\alpha/2}^2\; p_0}{n + z_{\alpha/2}^2}$

де або або (можливо, краще) - це середній рейтинг для всіх елементів. Однак я не впевнений, як адаптувати ширину інтервалу. Моя (переглянута) найкраща здогадка $p_0 = \frac{k+1}{2}$

\tilde{p} \pm \frac{z_{α / 2}}{\tilde{n}} \sqrt{\frac{\sum_{i = 1}^{n} (x_{i} - \tilde{p})^{2} + z_{α / 2} (p_{0} - \tilde{p})^{2}}{\tilde{n}}}

$\tilde{p} \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\frac{\sum_{i=1}^n{(x_i - \tilde{p})^2} + z_{\alpha/2}(p_0-\tilde{p})^2}{\tilde{n}}}$

з , але я не можу виправдати, як махати руками як аналогію Agresti-Coull, сприймаючи це як $\tilde{n} = n + z_{\alpha/2}^2$

Estimate (\bar{X}) \pm \frac{z_{α / 2}}{\tilde{n}} \sqrt{Estimate (Var (X))}

$\text{Estimate}(\bar{X}) \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\text{Estimate}(\text{Var}(X))}$

Чи застосовуються стандартні довірчі інтервали? (Зверніть увагу, що я не маю передплати на жодні журнали чи легкий доступ до університетської бібліотеки; будь-яким чином дайте належні довідки, але, будь ласка, доповніть фактичний результат!)

confidence-interval estimation

— Пітер Тейлор
джерело

4

Оскільки нинішні відповіді (можливо, не ввічливі) обійшли цю проблему, я хотів би зазначити, що ця програма є жахливим зловживанням межами довіри. Немає теоретичного обґрунтування використання LCL для ранжування засобів (і безліч причин, чому LCL насправді гірший, ніж саме середнє для цілей ранжування). Таким чином, це питання ґрунтується на дуже хибному підході, через що воно не привертає уваги порівняно мало.

— whuber

2

Приємною особливістю цього конкретного питання є те, що він містить достатній контекст для того, щоб ми ігнорували власне питання та зосереджувались на тому, що виявилося важливішим основним.

— Карл

1

Я радий, що ти змінив назву на свій смак, Пітер. Моя оригінальна редакція була зроблена не для корисної користі, а для того, щоб заголовок відображав текст запитання. Ви остаточний арбітр того, що ви насправді маєте на увазі.

— whuber

23

Як сказав у своїй відповіді Карл Броман, байєсівський підхід, ймовірно, буде набагато кращим, ніж використання довірчих інтервалів.

Проблема з інтервалом довіри

Чому можливо використання довірчих інтервалів не надто добре? Однією з причин є те, що якщо у вас не так багато оцінок для товару, то ваш інтервал довіри буде дуже широким, тому нижня межа довірчого інтервалу буде невеликою. Таким чином, елементи без багатьох оцінок опиняться внизу списку.

Однак інтуїтивно ви, мабуть, хочете, щоб предмети без багатьох рейтингів були близько середнього предмета, тому ви хочете змінити оціночну оцінку товару на середню оцінку для всіх предметів (тобто ви хочете підсунути свій оціночний рейтинг до попереднього ) . Саме цим займається байєсівський підхід.

Баєсовий підхід I: нормальний розподіл за рейтингами

Один із способів переміщення оціночного рейтингу до попереднього - це, як у відповіді Карла, використання оцінки форми : $w*R + (1-w)*C$

$R$ - середнє значення за рейтингами предметів.
$C$ - середнє значення для всіх предметів (або будь-якого раніше, до якого ви хочете зменшити рейтинг).
Зверніть увагу , що формула є лише зваженої комбінацією і . $R$ $C$
$w = \frac{v}{v+m}$ - вага, присвоєна , де - кількість відгуків на пиво, а - якийсь постійний параметр "поріг". $R$ $v$ $m$
Зверніть увагу , що при дуже велике, тобто, коли у нас є багато оцінки для поточного елемента, то дуже близько до 1, так що наш рейтинг по оцінками дуже близька до , і ми звертаємо мало уваги на попередньому рівні . Коли мала, проте, дуже близько до 0, тому попередні оцінки ставить багато ваги на попередньому рівні . $v$ $w$ $R$ $C$ $v$ $w$ $C$

Справді, ця оцінка може бути дана байєсівською інтерпретацією як задньою оцінкою середнього рейтингу предмета, коли окремі рейтинги походять від звичайного розподілу, зосередженого навколо цього значення.

Однак, якщо припустити, що рейтинги надходять від звичайного розподілу, є дві проблеми:

Нормальний розподіл безперервний , але рейтинги дискретні .
Оцінки для предмета не обов'язково повинні відповідати одномодальній гауссовій формі. Наприклад, можливо, ваш предмет дуже поляризуючий, тому люди, як правило, або дають йому дуже високу оцінку, або дають йому дуже низьку оцінку.

Баєсовий підхід II: Мультиноміальне розподіл за рейтингами

Отже, замість того, щоб вважати нормальним розподіл для рейтингів, припустимо багаточленове розподіл. Тобто, враховуючи якийсь конкретний елемент, є ймовірність що випадковий користувач дасть йому 1 зірку, ймовірність що випадковий користувач дасть йому 2 зірки тощо. $p_1$ $p_2$

Звичайно, ми не маємо уявлення, що це за ймовірності. Оскільки ми отримуємо все більше і більше оцінок для цього елемента, ми можемо здогадатися, що близький до , де - це кількість користувачів, які дали йому одну зірку, а - загальна кількість користувачів, які оцінили пункт, але коли ми вперше починаємо, у нас нічого немає. Таким чином , ми розміщуємо Діріхле перед на цих можливостях. $p_1$ $\frac{n_1}{n}$ $n_1$ $n$ $Dir(\alpha_1, \ldots, \alpha_k)$

Що це за Діріхлет раніше? Ми можемо вважати, що кожен параметр є "віртуальним рахунком" кількості разів, яку віртуальна людина давала елемент зірки. Наприклад, якщо , , а всі інші дорівнюють 0, то ми можемо подумати про це як про те, що двоє віртуальних людей дали предмету 1 зірку, а одна віртуальна людина дала предмет 2 зірок. Отже, перш ніж ми навіть отримаємо реальних користувачів, ми можемо використовувати цей віртуальний дистрибутив, щоб дати оцінку рейтингу товару. $\alpha_i$ $i$ $\alpha_1 = 2$ $\alpha_2 = 1$ $\alpha_i$

[Одним із способів вибору параметрів було б встановити рівну загальній пропорції голосів зірок. (Зверніть увагу, що параметри не обов'язково є цілими числами.)] $\alpha_i$ $\alpha_i$ $i$ $\alpha_i$

Потім, як тільки дійсні рейтинги приходять, просто додайте свої рахунки до віртуальних підрахунків вашого Діріхле до попереднього. Щоразу, коли ви хочете оцінити рейтинг товару, просто перейміть середнє значення для всіх рейтингів товару (як його віртуальних, так і реальних оцінок).

— рагетін
джерело

1

Підхід 2 працює як ідентичний підходу 1, чи не так, але з іншим обґрунтуванням?

— Пітер Тейлор

2

@ Петер: о, правда! Я не усвідомлював цього, поки не згадав про це =). (Якщо все, що ви хочете зробити, це взяти середню частину задньої частини, вони однакові. Я думаю, що задній елемент Діріхле може бути корисним, якщо ви хочете обчислити інший тип оцінки, наприклад, якусь міру полярності, хоча це може бути рідкісним.)

— raegtin

1

У підході 1, як ти зазвичай обираєш ?

m

$m$

— Джейсон C

15

Ця ситуація викликає байєсівський підхід. Тут є прості підходи до байесівських рейтингів рейтингів тут (зверніть особливу увагу на коментарі, які цікаві) і тут , а потім подальший коментар до них тут . Як вказує один із коментарів у першому з цих посилань:

Best of BeerAdvocate (BA) ... використовує байєсівську оцінку:

зважений ранг (WR) = (v / (v + m)) × R + (m / (v + m)) × C

де:
R = середня оцінка для пива
v = кількість відгуків на пиво
m = мінімальний огляд, необхідний для переліку (наразі 10)
C = середня кількість у списку (наразі 2,5)

— Карл
джерело

2

Недоліком методу Beer Advocate є те, що він не враховує мінливості. Тим не менш, я віддаю перевагу цій лінії мислення, ніж ідеї нижньої межі умовності.

— Карл