Я намагаюся скласти пакет обміну даними для сайтів StackExchange, і зокрема, я застряг у спробі визначити "найцікавіші" питання. Я хотів би скористатися оцінкою запитань, але усунути упередження через кількість переглядів, але я не знаю, як до цього жорстко підійти.
В ідеальному світі я міг би сортувати питання шляхом обчислення , де - загальна кількість голосів, а - кількість переглядів. Зрештою, це вимірювало б відсоток людей, які підтримують це питання, мінус відсоток людей, які спростують це питання. vn
На жаль, схема голосування набагато складніша. Голоси, як правило, "плато" до певного рівня, і це призводить до різко недооцінки диких популярних питань. На практиці питання, що має 1 перегляд і 1 підсумковий результат, безумовно, отримало б і було б відсортовано вище, ніж будь-яке інше питання, набравши 10 000 переглядів, але менше 10 000 голосів.
Наразі я використовую як емпіричну формулу, але хотів би бути точним. Як я можу підійти до цієї проблеми з математичною суворістю?
Щоб вирішити деякі коментарі, я спробую краще відновити проблему:
Скажімо, у мене є запитання із загальною кількістю голосів та переглядів . Я хотів би мати можливість оцінити, який загальний обсяг голосів є найімовірнішим, коли кількість переглядів сягає .n 0 v 1 n 1
Таким чином я міг просто вибрати номінальне значення для і замовити все питання відповідно до очікуваної загальної кількості .v 1
Я створив два запити на даці SO, щоб краще показати ефект, про який я говорю:
Результат:
Середній бал за переглядами (відра з 100 переглядами)
Результат:
Результати, не впевнені, чи краще пряме: ( синім, червоним) v