Чи є у нас проблема "жалісних нагород"?


51

Я знаю, це може здатися, що це поза темою, але вислухай мене.

У режимі переповнення стека і тут ми отримуємо голоси за повідомлення, все це зберігається в табличній формі.

Наприклад:

пост ідентифікатор виборця ідентифікатор типу голосування дата
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... і так далі. Тип голосування 2 - це повторне голосування, тип 3 - голосування. Ви можете запитувати анонімізовану версію цих даних на веб- сайті http://data.stackexchange.com

Існує думка, що якщо посада досягає оцінки -1 або нижчої, вона, швидше за все, буде аплодована. Це може бути просто упередження підтвердження або воно може бути вкорінене фактично.

Як би ми проаналізували ці дані, щоб підтвердити або спростувати цю гіпотезу? Як би ми виміряли ефект цього зміщення?


1
чи можемо ми отримати приклад запиту? Не всі добре вміють писати SQL-заяви. Наявність вибіркових даних може спонукати людей намагатися грати з ними. +1 для запитання.
mpiktas

@Jeff голоси анонімізовані, ви можете отримувати лише часткову інформацію з дампа даних, він включає всі переходи, хоча ось швидкий зразок data.stackexchange.com/stackoverflow/q/101738 повний анонімізований доступний на дампі загальнодоступних даних
Sam Шафран

Чому просто нагороди? Наскільки вірогідною може бути цікавість ймовірності розбиття голосів або вниз голосування навколо кожної конкретної цінності?
Боб Дуррант

@Bob, впевнений, що вони згодні
Сем Сафрон

1
Я бачив, як інші сайти придушують голоси (тобто додають шум перед їх відображенням), а іноді навіть повністю приховують голоси вниз і вниз на короткий період, щоб уникнути різних форм розкрутки, жалості голосів та інших "соціальних" елементи голосування.
Glen_b

Відповіді:


32

Ви можете використовувати багатоступеневу модель або ланцюжок Markov (пакет msm в R - це один із способів їх підгонки). Потім ви можете подивитись, чи більша ймовірність переходу від -1 до 0, ніж від 0 до 1, 1 до 2 і т. Д. Ви також можете переглянути середній час на -1 порівняно з іншими, щоб побачити, чи він коротший .


3
+1 чудова довідка. Існує стаття в Журналі статистичного програмного забезпечення про MSM пакет. Модель, здається, ідеально підходить для такого роду завдань.
mpiktas

3
Ідея моделі ланцюга Маркова виглядає непогано, але середній час у -1 не дасть усієї історії. Можливо (і правдоподібно - думайте про погані запитання), що хтось швидше занижений на -1, ніж в інших місцях.
Боб Дуррант

Я здогадуюсь, що спершу можна спробувати згрупувати траєкторії голосування - ті, які (майже) отримуються лише вгору / знижуються (дуже популярні / дуже погані питання), і ті, які є більш суперечливими. Тоді ви можете зробити Маркові ланцюжки на трьох класах.
Йонас

13

Проведіть експеримент. Випадково знімайте половину нових публікацій у певний час щодня.


5
Класно, нам слід спостерігати значне збільшення значків "критики" та, ймовірно, зниження мотивації для нових користувачів :-) Краще почати з користувачів із високим рівнем відгуку, у цьому випадку (ризикуючи змінити експеримент!)
chl

14
Насправді ми могли б зробити краще, ніж це ... використовуючи тестування на AB, ми могли вибрати, щоб відобразити половину -1 проголосованого питання на сайті як 0 і половину як -1 ... і побачити, чи є одна з груп більш імовірною. прихильне! Геніальний.
Сем Шафран

4
Ідея експерименту контролює якість публікацій, але (1) ті, хто знижується, повинні заздалегідь домовитись про участь в експерименті, і (2) через короткий час пониження слід усунути.
zbicyclist

2
+1 (і +1 також до всіх коментарів тут): контрольований оборотний експеримент, який заздалегідь повідомляється всім користувачам, які можуть бути зачеплені та проведені з їх схвалення, є одним із найсильніших способів отримання цієї інформації.
whuber

13

Підсумок моєї відповіді. Мені подобається моделювання ланцюгів Маркова, але воно пропускає "часовий" аспект. З іншого боку, зосередження уваги на часовому аспекті (наприклад, середній час в ) не вистачає аспекту "переходу". Я б перейшов до наступного загального моделювання (яке при належному припущенні може призвести до [марківського процесу] [1]). Також існує багато "цензурованої" статистики за цією проблемою (що, безумовно, є класичною проблемою надійності ПЗ?). Останнє рівняння моєї відповіді дає максимальну оцінку ймовірності інтенсивності голосування (на «+» та вниз «-») для даного стану голосування. Як ми бачимо з рівняння, це проміжний випадок від випадку, коли ви оцінюєте лише ймовірність переходу, і випадку, коли ви вимірюєте лише час, проведений у заданому стані. Сподіваюся, що це допоможе.1

Загальне моделювання (для перегляду питання та припущень). Нехай і є випадковими змінними, що моделюють відповідно дати голосування та пов’язаний з ними знак голосування (+1 за підсумковий результат, -1 - за нижчу оцінку). Процес голосування просто(VDi)i1(Si)i1

Yt=Yt+Yt
де

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

Важливою величиною тут є інтенсивність -jump де може бути або і - це хороша фільтрація, в іншому випадку без інших знань було б : .ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

але по лінії вашого запитання, я думаю, ви неявно припускаєте, що Це означає, що для існує детермінована послідовність такий, що .

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

У цьому формалізмі ви можете пересвідчитись як: "ймовірно, що " (або, принаймні, різниця більша за заданий поріг).μ1+μ0+>0

Згідно з цим припущенням, легко показати, що - це [однорідний марківський процес] [3] на з генератором заданимYtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

Відповідь на питання (пропонуючи максимальну оцінку ймовірності статистичної задачі). З цього переформулювання вирішення задачі здійснюється шляхом оцінки та побудови тесту на її значення. Давайте виправимо та забудемо індекс без втрати загальності. Оцінка (і ) може здійснюватися після спостереження за(μi+)iμ+μ

(T1,η1),,(Tp,ηp) , де є довжини таких періодів , проведених в стані (тобто послідовні часи з ) і - якщо питання було схвалено, якщо воно було зняте, і якщо це був останній стан спостереження.TjjthpiYt=iηj+110

Якщо ви забудете випадок із останнім станом спостереження, згадані пари є ідентифікатором від розподілу, який залежить від та : він розподіляється як (де Exp є випадковим var із експоненціального розподілу і дорівнює + або -1 залежно від того, хто реалізує макс.) Тоді ви можете використовувати таку просту лему (доказ прямо):μi+μi(min(Exp(μi+),Exp(μi)),η)η

Лемма Якщо і то і . X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

Це означає , що щільність з визначається за формулою: де для - функція щільності експоненціальної випадкової величини з параметром . З цього виразу легко вивести оцінку максимальної ймовірності та :f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
деі.p=|i:δi=1|p+=|i:δi=+1|

Коментарі для більш вдосконалених підходів

Якщо ви хочете взяти до уваги випадки, коли - останній спостережуваний стан (звичайно розумніший, бо коли ви проходите , це часто ваш останній бал ...), вам доведеться трохи змінити міркування. Відповідна цензура є відносно класичною ...i1

Можливий інший підхід може включати можливість

  • Маючи інтенсивність, яка зменшується з часом
  • Маючи інтенсивність, яка зменшується з часом, проведеним з моменту останнього голосування (я віддаю перевагу цьому. У цьому випадку є класичний спосіб моделювання того, як щільність зменшується ...
  • Ви можете припустити, що - це гладка функціяμi+i
  • .... ви можете запропонувати інші ідеї!
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.