Чи є спосіб виявити упередженість пошукових систем?

У пошукових системах все частіше покладаються на службовців інформації, але критерії, які використовуються пошуковими системами для ранжування результатів, непрозорі для користувачів. Як користувачі можуть бути впевнені, що їхні результати не є упередженими чи підробленими, щоб отримати певний інтерес за рахунок якості результатів пошуку?

Уряди регулярно вимагають від пошукових служб зняти або знизити рейтинг веб-сайтів, які вважаються політично небажаними. Підприємства можуть платити постачальникам, щоб збільшити певні результати порівняно з іншими, щоб збільшити свої доходи. Брандмауери можуть втручатися в результати, перш ніж вони будуть передані користувачам.

Навіть, здавалося б, нешкідливі зміни алгоритмів ранжування, які можуть виявитись не на поверхні, можуть виявитись упередженими, насправді можуть бути розроблені таким чином, щоб завдати шкоди веб-сайтам, які мають загальний атрибут (не пов'язаний з фактичною якістю).

Чи можливо виявити упередженість пошукових систем, скажімо, за результатами моніторингу протягом певного періоду часу та оцінюючи, чи є якась "прихована змінна" (можливо, політична приналежність) рушійним фактором у зміні рейтингу веб-сайтів?

Підлий постачальник може з часом поступово знижувати рейтинг цільових веб-сайтів (і, можливо, випадкових веб-сайтів, а також відволікати користувачів). Які обмеження щодо кількості упередженості, яку може ввести постачальник послуг без виявлення? Або можливо завжди приховувати подібні втручання, безсумнівно вибираючи зважені критерії ранжування, які випадково дають передбачуваний результат (шляхом "простеження даних").

Чи зміниться щось із цього, якщо критерії ранжування оприлюднені? Чи потрібно нам відкривати джерело критеріїв, якими користуються пошукові системи?

Це нагадує мені результат, що виявлення того, чи був такий підроблений фінансовий інструмент, як CDO, підроблений продавцем, є рівнозначним вирішенню проблеми найгустішого підграфа:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Дякую!

ds.algorithms data-mining

— han d.
джерело

Це класне питання, але я б переглянув його, переконавшись задати лише одне питання, пов'язане з теорією. Найбільш очевидним є зробити це довідковим запитом і запитати: "хтось це вже дивився?". Якщо ви впевнені, що нікого немає, то щось на кшталт "як це можна моделювати офіційно?" може бути хорошим питанням. Якщо навколо вас забагато запитань, причому деякі з них можуть бути пов'язані не з теорією, то це може бути закрито як "не справжнє питання".

— Артем Казнатчеєв

Зауважте, що оприлюднення схеми рейтингу відкриває її для нападу спамерів. Цікавим варіантом буде: "чи існує еквівалент" відкритого ключа "для рейтингу"

— Суреш Венкат,

@SureshVenkat "оприлюднення загальноприйнятої схеми рейтингу відкриває її для атаки", схоже, ви пропонуєте <s> безпеку </s> неупередженість через неясність;).

— Артем Казнатчеєв

ні, але саме тому я запитав про відкриті ключові версії схем ранжування.

— Суреш Венкат

Оскільки не всі сторони, які беруть участь у процесі пошуку, вважаються зловмисними користувачами, нормальним рішенням є моделювання процесу як гри з егоїстичними користувачами. Якщо правильно моделювати, ми можемо з’ясувати, чи корисно пошуковим системам робити таку чи ні. Тоді ми можемо розробити механізм для запобігання такому підробці.

— Гелій

Це, очевидно, питання дуже відкритого кінця, але для того, щоб зупинитися на темі, ось один теоретичний підхід CS до ідеї "справедливості" та як її застосувати.

Робота "Справедливості через обізнаність", Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

— Аарон Рот
джерело