Як я можу покращити аналіз впливу репутації на голосування?


15

Нещодавно я провів аналіз впливу репутації на рекламних рефератах (див. Допис у блозі ), а згодом у мене виникло кілька питань щодо можливо більш просвічуючого (або більш підходящого) аналізу та графіки.

Отож кілька запитань (і сміливо відповідайте на когось, зокрема, ігноруйте інших):

  1. У своєму втіленні я не мав на увазі номер центру. Я думаю, що це робить - це хибна поява негативної кореляції в розсипці, оскільки в нижньому кінці кількості публікацій є більше повідомлень (ви бачите, що це не відбувається на панелі "Скіт Джон", лише у смертних користувачів панель). Чи недоцільно не означати центральний номер допису (оскільки я маю на увазі середній бал на середній бал користувача)?

  2. З графіків повинно бути очевидно, що оцінка вкрай правильно перекошена (а середнє центрування цього не змінило). Під час встановлення регресійної лінії я підходив як до лінійних моделей, так і до моделі, використовуючи сендвіч-помилки Huber-White (через rlmпакет MASS R ), і це не змінило оцінок нахилу. Чи слід було б розглянути перетворення даних замість сильної регресії? Зауважте, що будь-яка трансформація повинна враховувати можливість 0 та негативних балів. Або я повинен використовувати якусь іншу модель для обчислення даних замість OLS?

  3. Я вважаю, що останні дві графіки, в цілому, можна вдосконалити (і пов'язані також із вдосконаленими стратегіями моделювання). На мою (невмілену) думку, я б підозрював, що ефекти репутації справжні, вони будуть реалізовані досить рано в історії плакатів (я припускаю, що якщо це правда, то вони можуть бути переглянуті "ви дали чудові відповіді, тому зараз я схвалюю всі ваші пости "замість" репутації за загальною оцінкою "ефектів). Як я можу створити графіку, щоб продемонструвати, чи це правда, беручи до уваги надмірну графіку? Я подумав, що, можливо, хорошим способом продемонструвати це було б відповідати моделі форми;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αк(Zк)+γ1(Z1Х1)γк(ZкХ1)+ϵ

де являє собою (так само , як в поточних діаграмах розсіювання), Х 1 є , а Z 1Z до фіктивні змінні , що представляють певний довільний діапазон поштових чисел (наприклад Z 1 одно якщо пост число є , Z 2 дорівнює, якщо номер пошти тощо). β 0 і ϵ - великі терміни перехоплення та помилки відповідно. Тоді я би просто вивчив оцінену γYscore - (mean score per user)Х1post numberZ1ZкZ111 through 25Z2126 through 50β0ϵγнахили, щоб визначити, чи з’явилися ефекти репутації на початку історії плакатів (або графічно відображати їх). Це розумний (і відповідний) підхід?

Мабуть, популярним є пристосування певного типу непараметричної лінії згладжування до таких розсіяних (наприклад, лес або шлейфів), але моє експериментування зі сплайнами не виявило нічого просвічуючого (будь-які докази позитивних ефектів на початку історії плакатів були незначними та темпераментними до кількості сплайнів, які я включив). Оскільки у мене є гіпотеза, що ефекти трапляються на ранніх етапах, чи є мій підхід моделювання вище розумним, ніж сплайни?

Також зауважте, хоча я досить сильно затопив усі ці дані, є ще багато інших спільнот, щоб їх вивчити (а такі, як суперпользователь і сервер за замовчуванням, мають такі ж великі зразки), тому в майбутньому є розумним запропонувати аналіз, що я використовую вибірковий зразок, щоб вивчити будь-які відносини.


Наразі я зробив кілька записок до мого першого питання, і їх можна знайти тут . На даний момент я не впевнений, чи варто я просто розміщувати це як відповідь на власне запитання чи відкрити окреме запитання (оскільки це багато в чому зосереджено на візуалізації даних). Але сміливо залишайте мені коментар щодо google документа або тут, або в чаті .
Andy W

Відповіді:


14

Це смілива спроба, але лише з цими даними буде складно або неможливо відповісти на ваше дослідницьке питання щодо "впливу репутації на репутацію". Проблема полягає у відокремленні наслідків інших явищ, які я перелічую разом із короткими ознаками того, як вони можуть бути вирішені.

  • Ефекти навчання . З підвищенням репутації досвід зростає; по мірі зростання досвіду ми очікуємо, що людина може поставити кращі запитання та відповіді; оскільки якість їх покращується, ми очікуємо більше голосів за повідомлення. Імовірно, одним із способів вирішити це в аналізі було б визначити людей, які працюють на більш ніж одному веб-сайті SE . На будь-якому веб-сайті їх репутація зростатиме повільніше, ніж обсяг їх досвіду, забезпечуючи тим самим ручку для розбиття репутації та ефектів навчання.

  • Тимчасові зміни контексту. Це безліч, але очевидні будуть включати

    • Зміни кількості виборців з плином часу , включаючи загальну тенденцію до зростання, сезонні тенденції (часто пов’язані з академічними циклами) та люди, що переживають люди (виникають із-за зовнішньої реклами, наприклад, посилань на конкретні теми). Будь-який аналіз повинен був би врахувати це при оцінці тенденцій репутації будь-якої людини .

    • Зміни звичаїв громади з часом . Спільноти та те, як вони взаємодіють, розвиваються та розвиваються. З часом вони можуть прагнути голосувати більш-менш часто. Будь-який аналіз повинен був би оцінити цей ефект і врахувати його .

    • Час сам. З плином часу попередні пости залишаються доступними для пошуку та продовжують збирати голоси. Таким чином, caeteris paribus , більш старі пости повинні дати більше голосів, ніж нові. (Це сильний ефект. Деякі люди, які постійно помітно відвідують ліги щомісячної репутації, не відвідували цей сайт цілий рік!) Це маскує або навіть переверне будь-який фактичний позитивний ефект репутації. Будь-який аналіз повинен враховувати тривалість часу, коли кожна публікація була присутня на сайті .

  • Предметна популярність. Деякі теги (наприклад, ) набагато популярніші, ніж інші. Таким чином, зміни у видах питань, на які відповідає людина, можуть бути змішані з тимчасовими змінами, такими як ефект репутації. Тому будь-який аналіз потребує врахування характеру відповідей.

  • Перегляди [додано як редагування]. Запитання переглядаються різною кількістю людей з різних причин (фільтри, посилання тощо). Можливо, кількість голосів, отриманих відповідями, пов'язана з кількістю переглядів, хоча можна очікувати зменшення частки, оскільки кількість переглядів зростає. (Справа в тому, скільки людей, які справді зацікавлені в питанні, насправді переглядають його, а не необмежену кількість. Мій власний - анекдотичний - досвід полягає в тому, що приблизно половина коштів, які я отримую за багато питань, потрапляє протягом перших 5-15 погляди, хоча зрештою питання переглядаються сотні разів.) Тому будь-який аналіз потребує врахування кількості переглядів, але, мабуть, не лінійним шляхом.

  • Труднощі з вимірюванням. "Репутація" - це кількість голосів, отриманих за різні види діяльності: початкова репутація, відповіді, запитання, схвалення питань, редагування вікі-тегів, редагування та опромінення (у порядку зменшення значення). Оскільки ці компоненти оцінюють різні речі, і не всі знаходяться під контролем виборців громади, їх слід розділити для аналізу . "Ефект репутації", імовірно, пов'язаний з обґрунтуваннями відповідей та, можливо, питань, але не повинен впливати на інші джерела репутації. Початкову репутацію, безумовно, слід відняти (але, можливо, вона може бути використана як проксі для деякого початкового досвіду).

  • Приховані фактори. Існує багато інших заплутаних факторів, які неможливо виміряти. Наприклад, існують різні форми «вигорання» при участі у форумах. Що люди роблять після початкових кількох тижнів, місяців чи років захоплення? Деякі можливості включають зосередження уваги на рідкісних, незвичних або складних питаннях; надання відповідей лише на відповіді без відповідей; надання меншої кількості відповідей, але більш високої якості; тощо. Деякі з них можуть замаскувати ефект репутації, тоді як інші можна помилково сплутати з одним. Проксі-фактором таких факторів можуть бути зміни у показниках участі особи : вони можуть сигналізувати про зміни в характері посад цієї особи.

  • Субком'юнітарні явища. Важкий погляд на статистику навіть на дуже активних сторінках ДП показує, що відносно невелика кількість людей робить більшість відповідей і голосування. Кліка, яка складається з двох або трьох людей, може мати глибокий вплив на зростання репутації. Кліки для двох осіб будуть виявлені за допомогою вбудованих моніторів сайту (і одна така група існує на цьому сайті), але більших кліків, мабуть, не буде. (Я не кажу про формальну змову: люди можуть бути членами таких кліків, навіть не усвідомлюючи цього.) Як би ми відокремили очевидний ефект репутації від діяльності цих невидимих, невиявлених, неофіційних кліків? Детальні дані про голосування можна використовувати діагностично, але я не вірю, що ми маємо доступ до цих даних.

  • Обмежені дані. Щоб виявити ефект репутації, вам, ймовірно, доведеться зосередити увагу на особах, що мають десятки до сотень постів (принаймні). Це знижує чисельність населення до 50 осіб. З усією можливістю варіацій та збитків, це занадто мало, щоб дратувати значні наслідки, якщо вони справді не дуже сильні. Ліки полягає в розширенні набору даних із записами з інших сайтів SE .

З огляду на всі ці ускладнення, повинно бути зрозуміло, що дослідницька графіка в статті блогу мало шансів виявити щось, якщо це не очевидно. У нас нічого не вискакує: як і очікувалося, дані брудні та складні. Заздалегідь рекомендувати вдосконалення сюжетів або аналізу, який був представлений: додаткові зміни та додатковий аналіз не допоможуть, поки ці основні проблеми не будуть вирішені .


Дякую за відповідь. Враховуючи широту критики, я не зможу належним чином вирішити всі пропозиції в коментарях (мені доведеться продумати інше місце, можливо, просто опублікувати ще один документ google). Але я зараз скажу, що не думаю, що відповісти неможливо (настільки, коли хто-небудь може відповісти на що-небудь із даних спостережень, таких як ця). Як мінімум, враховуючи обмеження потенційних заплутань, можна побачити, чи відповідають ефекти репутації наявним доказам.
Andy W

@Andy Я вважаю, що заплутаність є суттєвою та всеосяжною, так що навіть якщо це виглядає як ефект репутації, це може бути артефактом: ви не зможете зробити жодного обгрунтованого висновку, якщо не вирішите ці проблеми. Звичайно, я можу помилитися, але тягар доказування лежить на вас.
whuber

ключове твердження (як я бачу) є "якщо це виглядає як ефект репутації, є". Більшість викладених вами міркувань були б або неоднозначно пов’язані з репутацією плакатів / номером / поштою / історією плакатів, або теоретично очікується, що згодом збільшиться кількість балдатів на відповіді. Якщо я не знайду доказів ефекту репутації, багато потенційних плутанин не можуть бути використані для пояснення його відсутності.
Andy W

@Andy Але хоча б одного можна, і цього достатньо. Сюди входять приховані фактори, популярність теми та часові зміни контексту. Якщо ви чітко не впораєтесь із усім цим в аналізі, ваші висновки будуть підозрілими. Погляд на записи показує, що популярність предмету та часові зміни величезні; їхні потенційні впливи заполоняють те, на що ми можемо з розумом очікувати, що ефективність репутації буде на порядок.
whuber

2
@cardinal, навіть без формального визначення, для невеликої кількості людей можна було б відчутно вплинути на схеми голосування (саме так я припускаю, що в цьому контексті мається на увазі Валер). Середня посада Джона Скіта становила лише 5 рішень. Якщо раптом одна людина вирішить підтвердити всі свої відповіді, це може мати досить істотний вплив, враховуючи низький середній бал.
Енді Ш

5

YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1YtFχ2T1T1/2YtZta0a1a2

У пункті 1: якщо ви робили фіксовані ефекти вручну, вам слід було б зосередити як змінну відповіді, так і пояснювальні змінні. Пакет регресії даних на панелі зробив би це для вас, але офіційний економетричний погляд на речі полягає в тому, щоб відняти "між" регресію від "об'єднаної" регресії (див . Чорну книгу Вулдріджа ; я не перевіряв друге видання, але я, як правило, розглядаю перше видання як найкращий опис типу підручника економетричних даних панелі).

З точки зору 2: звичайно, стандартні помилки Eicker / White не вплинуть на ваші оцінки балів; якщо вони це зробили, це вказувало б на неправильну реалізацію! В контексті часових рядів ще більш підходящим оцінкою є завдяки Newey and West (1987) . Спроба перетворень може допомогти. Я особисто великий фанат трансформації Box-Cox, але в контексті аналізу, який ви проводите, важко зробити це чисто. По-перше, вам знадобиться параметр зрушення поверх параметра параметра форми, а параметри зсуву, як відомо, важко визначити в подібних моделях. По-друге, напевно, вам знадобляться різні параметри зміни / форми для різних людей, та / або різні посади, та / або ... (усе чортово вирветься). Дані підрахунку теж є варіантом, але в контексті моделювання середнього значення регресія Пуассона настільки ж хороша, як і перетворення журналу, але вона накладає непросте припущення про відхилення = середнє значення.

PS Ви, ймовірно, могли би позначити це за допомогою "поздовжніх даних" та "часових рядів".


дякую за відповідь та кілька коментарів / запитань. Я погоджуюся, що я мав би хоча б вивчити більш чіткий підхід до часових рядів у цих даних (я навіть не перевіряв, чи є в рештках ознаки автокореляції). Є ще кілька ускладнень, хоча в моделюванні цих даних за часовим рядом (що таке t ?, а сам показник динамічний і не фіксований за номером посади), також не було б потреби в регресії, що передбачає Z_t, я прекрасно знаю, що таке Z_t це функція!
Енді Ш

Також я дуже сумніваюся, що оцінка нестаціонарна, що змушує вас вважати, що це?
Енді Ш

Принаймні, це, мабуть, гетерокедастичний: деякі публікації цікаві, отримують багато звернень та багато оновлень, інші - невеликі роз'яснення або RTFM- "Прочитайте це посилання" тип питань / відповідей. Це саме по собі технічно зробить це нестаціонарним. Звичайно, стаціонарність - це перевіряється припущення, але з такими шаленими даними, як ви, можливо, ви хочете бути на дуже безпечній стороні бути занадто консервативними в методах аналізу (або, як я вже згадував, знати, що результати можуть бути дивно).
Стаск

Я трохи збентежений останнім коментарем. Яким чином екзогенні фактори, які впливають на оцінку відповіді, роблять серію гетерокедастичною (я припускаю, ви маєте на увазі, що дисперсія балів стає більшою / меншою із номером посту?), І яке значення має це питання, яке стосується питання?
Andy W

Часовий ряд є нерухомим, якщо граничні розподіли в усі моменти часу однакові. Тож навіть у вас може бути однакове значення, зміна дисперсії зробить серію нестаціонарною. Прикладом можуть слугувати (G) моделі ARCH, за які на початку 2000-х років була отримана Нобелівська премія. Але в цих даних я також очікував певних зрушень в середньому. Якщо аудиторія веб-сайту зростає, то за заданої якості відповіді ви, ймовірно, побачите більше голосів за неї, що, ймовірно, підвищить як середнє, так і відмінність балів.
Стаск

3

Ще кілька змін сюжетів:

  1. Квантильні смуги для оцінки відповідей порівняно з попередньою репутацією. (Сюжети 1 і 3)
  2. Діаграми щільності для Скіта порівняно з іншими, стратифіковані поштовим номером № (Ділянка 3)
  3. Подумайте про стратифікацію по # конкуруючих публікацій
  4. Стратифікуйте за часом (можна продовжувати набирати очки довгий час після того, як питання було задано)

Моделювати це буде складніше. Ви можете розглянути можливість регресії Пуассона. Відверто кажучи, однак розробка хороших сюжетів є набагато кращим методом розвитку розуміння та навичок. Почніть моделювання після того, як ви краще зрозумієте дані.


(+1) Відпустивши пост ненадовго, я зрозумів, що візуалізація щільності точок виглядає набагато кращим рішенням, ніж спроба візуалізації самих очок (хоча я не зовсім впевнений, що ви маєте на увазі під "стратифікацією пошта #"). Я також думаю, що складання оцінених квантових звуків є гарною ідеєю, хоча для сюжетів 1 та 2 воно, ймовірно, буде просто у великій хмарі. Знову ж таки, я не знаю, що означає "стратифікація часом" у цьому контексті, дивіться коментар Бреда Ларсона щодо публікації в блозі та мою відповідь щодо цього.
Andy W

Також я дуже сумніваюся, що конкуруючі пости мають щось спільне із спостережуваними стосунками. Як ви вважаєте, люди, які мають високу репутацію, розміщені в нитках із більш конкуруючими відповідями раніше у своїй історії? Ваші пропозиції щодо включення інших коваріатів, здається, суперечать пропозиціям уникати моделювання та зосередження уваги на сюжетах.
Andy W

Ідея, що стоїть на конкуруючих посадах, має дослідницький характер. Мотивація відповідати не має нічого спільного. Що стосується моделювання, то це не те, що я проти моделювання як такої, а в тому, що ви ще не готові до цього, поки ви краще не зрозумієте дані. Якщо ви не розумієте дані, ви не зрозумієте моделей.
Ітератор

Стратифікуючи по пошті №, я пропоную вам скористатися публікаціями. Це може бути на інтервальній шкалі, наприклад, 0-100 повідомлень, 101-200 і т.д. Є стільки публікацій, що найкраще порівняти його з групою однолітків, але важко порівняти його з групою однолітків із точно такою ж кількістю публікацій - поширювання даних може допомогти.
Ітератор

Btw, для стратифікації можна використовувати coplot().
Ітератор

1

Хто там. (І я маю на увазі, що хорошим способом ;-)) Перш ніж продовжувати працювати з моделями, вам потрібно вирішити, що відбувається з даними.

Я не бачу пояснення дуже своєрідної кривої в середині цього сюжету: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Побачення такої кривої змушує мене думати, що в цих точках є щось дуже дивне - що вони не залежать один від одного, а натомість відображають певну послідовність спостережень того самого джерела.

(Незначна примітка: заголовок цього сюжету "Кореляція ..." вводить в оману.)


5
Ця крива виглядає дивно через дивний вибір лусочок на осях. Він відображає відповіді, які сприяли більшості репутації користувача: чудеса в одному дописі. Це експоненціально, тому що вісь y лінійна, а вісь x - логарифмічна. Ви дійсно повинні ігнорувати все, що стосується репутації журналу, менше2тому що для багатьох користувачів саме тут починається їх репутація, і вам слід розглянути майже все, що стосується репутації журналу, менше3бути просто шумом. Таким чином, 99% цієї графіки присвячено відображенню цього шуму: інформації там мало.
whuber

Ця крива може бути пояснена характером того, як репутація пов'язана з результатами, і це, ймовірно, люди, які опублікували одну відповідь і здобули всю репутацію з цього єдиного відповіді (я можу детальніше розглянути, чому це, ймовірно, так, якщо це потрібно) . Якби я побудував поточну репутацію за вирахуванням репутації з найактуальнішої посади, це б зважало на це здебільшого (також ці спостереження не мають нічого спільного з подальшим аналізом). Чи хочете ви докладно уточнити, що кореляція є оманливою?
Andy W

@whuber, я не думаю, що я б сказав щось нижче 10 ^ 3 - це лише шум. Безумовно, теорія ефектів репутації повинна застосовуватися в тих випадках, коли репутація відсутня. Я також вітаю будь-які запропоновані вдосконалення сюжетів (в жодному з сюжетів не так багато інформації)
Andy W

Спасибі. Для заголовка немає розрахунку кореляції. Це просто розсіяний сюжет граничного показника проти репутації. Крім того, як ви та @whuber згадуєте, це насправді не гранична оцінка: вона повинна бути deltaRep (або Rep (t) - Rep (t-1)) проти Rep (t-1).
Ітератор

1
@Iterator, виправте останнє твердження (10 балів за підсумковий запит), але все ж, здається, ви можете сплутати те, що я будую з іншим твердженням. Вісь Y - це не репутація, але кількість оновлень для останньої публікації (це не обов'язково, Rep(t) - Rep(t-1)оскільки користувачі можуть здобути репутацію в інших місцях), вісь X - це поточна репутація (включаючи репутацію, здобуту на цій посаді). Вісь X - це те, що я запропонував, слід замінити (віднімання результатів, отриманих від відповіді в питанні, яку я побудував на осі Y).
Andy W
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.