Функція «Цікавість» для питань StackExchange

Я намагаюся скласти пакет обміну даними для сайтів StackExchange, і зокрема, я застряг у спробі визначити "найцікавіші" питання. Я хотів би скористатися оцінкою запитань, але усунути упередження через кількість переглядів, але я не знаю, як до цього жорстко підійти.

В ідеальному світі я міг би сортувати питання шляхом обчислення , де - загальна кількість голосів, а - кількість переглядів. Зрештою, це вимірювало б відсоток людей, які підтримують це питання, мінус відсоток людей, які спростують це питання. $\frac{v}{n}$ $v$ $n$

На жаль, схема голосування набагато складніша. Голоси, як правило, "плато" до певного рівня, і це призводить до різко недооцінки диких популярних питань. На практиці питання, що має 1 перегляд і 1 підсумковий результат, безумовно, отримало б і було б відсортовано вище, ніж будь-яке інше питання, набравши 10 000 переглядів, але менше 10 000 голосів.

Наразі я використовую як емпіричну формулу, але хотів би бути точним. Як я можу підійти до цієї проблеми з математичною суворістю? $\frac{v}{\log{n}+1}$

Щоб вирішити деякі коментарі, я спробую краще відновити проблему:

Скажімо, у мене є запитання із загальною кількістю голосів та переглядів . Я хотів би мати можливість оцінити, який загальний обсяг голосів є найімовірнішим, коли кількість переглядів сягає . $v_0$ $n_0$ $v_1$ $n_1$

Таким чином я міг просто вибрати номінальне значення для і замовити все питання відповідно до очікуваної загальної кількості . $n_1$ $v_1$

Я створив два запити на даці SO, щоб краще показати ефект, про який я говорю:

Середні перегляди за балом

Результат:

Перегляди за рахунком

Середній бал за переглядами (відра з 100 переглядами)

Результат:

Оцінка за переглядами

Дві формули порівнювали

Результати, не впевнені, чи краще пряме: ( синім, червоним) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Формули

data-mining predictive-models

— Склівз
джерело

Це, безумовно, цікаве питання, але я думаю, що вам може бути краще задати це на stats.SE.

@Theo Насправді ви можете мати рацію. Я подам прапор для того, щоб модники мігрували, якщо вони вважають, що це найкраще.

Чому погляди не сприятимуть цікавості? (але ще гірше, чому б вони сприяли негативно?) Більше цікавих речей, як правило, розглядається частіше ... Основною проблемою тут є те, що навіть цікаве означає? Чи означає це питання загального інтересу або питання, що цікавлять більш конкретну аудиторію вищого рівня? Для того, щоб хтось відповів на це питання «математичною строгістю», його потрібно спершу поставити суворо.

Перегляди зміщують питання, оскільки одне питання може бути, скажімо, хорошим сайтом і отримує багато переглядів - якщо ви подивитесь на найбільш рейтингові питання, то це всі питання високого перегляду; під цікавим я маю на увазі питання, які мають більшу цінність як сприйняті користувачами сайту. У будь-якому випадку все ще залишається питання: який правильний спосіб поєднання поглядів і голосів, щоб отримати найкращий прогноз якості?

Люди з математики задавали гарні запитання. Логіка цього питання здається круговою: воно, здається, запитує формулу для вимірювання "якості" запитання щодо SE, але вона не визначає, що означає "якість", окрім того, щоб дати неоперативні синоніми типу "значення, як сприймають користувачі" сайту ". Ви нічого не можете дістати!

— whuber

Відповіді:

Можна визначити цікаве питання як таке, яке отримало порівняно багато голосів, враховуючи кількість переглядів. З цією метою ви можете створити базову криву, яка відображає очікувану кількість голосів з урахуванням думок. Криві, які набрали набагато більше голосів, ніж базові, вважалися особливо цікавими.

Для побудови базової лінії ви можете обчислити серединну кількість голосів на 100 переглядів. Крім того, ви можете обчислити середнє абсолютне відхилення (MAD) як надійний показник для стандартного відхилення на відро. Тоді "цікавість" можна обчислити як

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

— Йонас
джерело

Це моя теорія. Я думаю, що існує два типи питань: ті, які залишаються здебільшого в межах ПП (які зазвичай мають меншу кількість переглядів), і ті, які переглядаються сторонніми людьми, оскільки вони були пов'язані з іншого місця (зазвичай мають більше поглядів).

Що стосується питань, які залишаються здебільшого в межах СВ, голоси - це хороший показник цікавих питань. Це суть голосів.

Коли питання пов’язане за межами сайту, голоси перестають означати стільки ж. Деякі сайти, що посилаються, можуть мати дуже мало членів SE, інші можуть мати більше. Різниця в кількості голосів за ці питання, ймовірно, велика (про що свідчить ваш рахунок проти сюжетного сюжету, де права сторона кривої розквітає). Ці питання матимуть більше поглядів, а перегляди МОЖЕ бути кращим показником цікавих питань. Або питання, які більшій спільноті траплялися цікавіші. У цій ситуації є багато змінних, і я думаю, що варто було б спробувати знайти більше інформації для диференціації цих випадків. Чи оприлюднює SE інформація про направлення?

— rm999
джерело

Чи оприлюднює SE інформація про направлення? Мені буде цікаво дізнатися схему перегляду публікацій, а не просто оновлення, коментарі тощо

— d_a_c321