Як виміряти «всебічність» учасників ІП?


12

Як ми всі знаємо, обмін стеками - це колекція сайтів із запитаннями та питаннями з різноманітною тематикою. Якщо припустити, що кожен сайт незалежний один від одного, враховуючи статистику, яку має користувач, як обчислити його «добре округленість» у порівнянні з наступним хлопцем? Який статистичний інструмент я повинен використовувати?

Якщо чесно, я не зовсім знаю, як математично визначити "круглість", але вона повинна мати такі характеристики:

  1. При рівних ситуаціях, чим більше репортаж у користувача, тим він більш чіткий
  2. При рівних обставинах, чим більше сайтів бере участь у користувачеві, тим він більш чіткий.
  3. Відповідь чи питання не впливає на чіткість

Як би ви в першу чергу визначили "всебічність" у контексті SE?
JM не є статистиком

@JM, я не знаю, тому я сподіваюся, що громада допоможе трохи розробити ці поняття.
Гравітон

1
Загрожуючи звучати, як хтось із колінних поліцейських ПК - Давайте будемо включати жінок, які відвідують наш сайт. @Graviton, усі ваші посилання стосуються чоловіків.
rolando2

Округленість, визначена ідентифікатором користувача, не говорить вам про чіткість округлості учасника , оскільки учасник може мати різні ідентифікатори користувачів для різних SE. Деякі ідентифікатори користувачів можуть також використовувати більше, ніж один учасник (наприклад, партнери, які діляться обліковим записом).
Олексій

Відповіді:


7

Вам також потрібно враховувати подібність між сайтами. Хтось, хто бере участь у StackOverflow та Seasoned Advice, є більш чітким, ніж хтось, хто бере участь у SO та CrossValided, хто в свою чергу (я б заперечував) більш чітко, ніж хтось, хто бере участь у програмах SO та Programmers . Безсумнівно, існує багато способів зробити це, але ви можете перевірити перекриття реєстрації, щоб просто відчути це.


1
@Matt Parker, хороші моменти - Якщо представник є частиною метрики, я також думаю, що вам потрібно подивитися, як отримано репліку. Людина, яка отримала свою репутацію від невеликих прибутків у багатьох питаннях / відповідях, швидше за все, буде більш чіткою, ніж людина, яка отримала ту саму репутацію на одне запитання, яка набрала тонну голосів.
DQdlM

3
@Kenny Це хороший момент, і я вважаю, що те, як ви сказали, є правильним - але я вважаю, що багато запитань та відповідей, які найбільш голосно висловлюються, найменше свідчать про досвід, тоді як хороші відповіді на справді важкі технічні питання часто дуже низькі голоси.
Метт Паркер

1
Ознайомтеся, наприклад, з відповіддю Ваубера. Його відповіді рівномірно відмінні, тож чим відрізняються його високо оцінені відповіді та його 1-виборці? Коли я дивлюся на колишнє, я бачу чудові відповіді на питання, які я розумію; на останньому, чудові відповіді на запитання, які я навіть не починаю ривкати. Тож відповіді з низьким рівнем голосування насправді можуть свідчити про глибоку спеціалізацію (але зауважте: якщо вам цікаво, як виглядає всебічний користувач SE, це так ).
Метт Паркер

1
Насправді, @Graviton, можливо, було б розумно шукати користувачів із багатьох веб-сайтів, яких ви вважаєте добре розібраними, і бачити, як вони працюють у ваших різних показниках.
Метт Паркер

1
@KennyPeanuts, щоб доповнити точку @ Метта вище, начебто також є значна кількість користувачів на веб-сайтах SE, які відповідають на величезну кількість запитань, однак даючи кілька результатів. Це, як правило, не вказує на експертизу чи чіткість. (Хоча, це один з найпростіших стратегій , щоб зібрати «репутації»).
кардинал

6

ПРИКЛАД: скажімо, що існує три сайти, і ми хочемо порівняти всебічність користувачів A, B, C. Ми пишемо репутацію користувачів на трьох сайтах у векторній формі:

Користувач A: [23, 23, 0]

Користувач B: [15, 15, 0]

Користувач C: [10, 10, 10]

Ми вважаємо, що більш чіткий, ніж B (їх репутація розподілена рівномірно на двох сайтах, але А має більш загальну репутацію). Крім того, ми вважаємо, що C є більш чітким, ніж B (вони мають однакову загальну репутацію, але C має рівномірне поширення на більше сайтів.) Не вирішено, чи слід вважати A більш чітким, ніж C, або навпаки .

xAxBxC

f(x)ff(xA)>f(xB)f(xC)>f(xB)

f(x)

Два поширених прикладу опуклих функцій - це «дробова норма»

f([x1,...,xm])=ixip

0<p<1

p=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

1/2

f

f([x1,...,xm])=ixilog(xi/c).

c=ixi

f

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

Вимірюється відповідно до масштабної ентропії Шеннона, тоді, ми б сказали, C є найбільш добре закругленою з трьох, а A другий найбільш добре округленою.

f(x)

EDIT2: Доданий приклад з огляду на коментар WHUER.


f

f[1,101]f

Дробова норма не визначена, коли будь-яка x_i <0. Ентропія Шеннона виходить з ладу, коли будь-який x_i / c ≤ 0. Немає сенсу, що міра округлості свердловини раптом вибухне, коли деякі x_i змінюються з 0 на -𝜀.
200_успіх

4

Це дійсно, дуже цікаве питання (адже я дещо закоханий у ідею моделювання сайтів обміну стеками взагалі).

Щодо питання всебічності, одним із способів оцінити це було б через теги, на які конкретні користувачі схильні відповідати, та їх розподіл по сайтах. Приклади можуть зробити це зрозумілішим.

Я є учасником TeX, StackOverflow, CrossValided та AskUbuntu. Тепер я дійсно лише сприяю тут і StackOverflow, і лише про R на Stackoverflow. Отже, щоб визначити добре округленість, я б розглядав: а) кількість тегів, які мають два сайти спільних (для визначення схожості між сайтами) та ступінь, в якому користувач відповідає на запитання сайтів, у яких мало або взагалі немає тегів.

Наприклад, якщо хтось вносить внесок у теги Python на StackOverflow та приготування їжі, ця людина є більш чітким, ніж хтось, хто відповідає на запитання статистичного програмного забезпечення (наприклад) щодо Overflow та аналізує тут питання.

Сподіваюся, це дещо корисно.


4
(+1) Хтось, хто робить внесок у теги Python як на SO, так і на приготування їжі, має в їжі екзотичні смаки :-) Я чую, що це на смак як курка.
whuber

3

Якщо ви визначаєте "добре округленість" як "внесок у багато різних сайтів обміну стеками", я б обчислив деякий показник внеску на кожен сайт. Ви можете використовувати загальну кількість публікацій, або середні повідомлення в день, або, можливо, репутацію. Потім подивіться на розподіл цієї метрики на всіх сайтах і обчисліть її хиткість певним чином, що має сенс.

Іншими словами, "добре округлена" людина буде тим, хто робить внесок у багато різних сайтів, тоді як "недостатньо округлена" людина буде тим, хто в першу чергу вносить свій внесок у один сайт. Ви можете додатково покращити це, змінивши показник із загальною кількістю користувачів на всіх сайтах. тобто хтось, хто зробив чималий внесок у багато різних сайтів, слід вважати більш чітким, ніж той, хто нічого не сприяв жодному із сайтів. Людина, яка ніколи не використовувала SE, не дуже добре округлена!


1

Вже багато хороших відповідей, так чому ж ще одна? Це здебільшого, щоб привернути увагу до цікавих ідей, обговорених тут у кафе "N-категорія" . Хоча різноманітність в екології (і в інших місцях) здебільшого лише дивиться на достаток, слід також дивитись, наскільки подібні / несхожі різні види.

Представляючи вид (або що завгодно, як сайти SE ...) як точки в метричному просторі, це призводить до узагальнення ентропії метричних просторів, див., Наприклад, Максимальну ентропію метричного простору Тома Ленстера, Емілі Рофф . Ті ж самі ідеї можна було б використовувати і на сайтах SE, розглядаючи теги як точки в метричному просторі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.