У пошукових системах все частіше покладаються на службовців інформації, але критерії, які використовуються пошуковими системами для ранжування результатів, непрозорі для користувачів. Як користувачі можуть бути впевнені, що їхні результати не є упередженими чи підробленими, щоб отримати певний інтерес за рахунок якості результатів пошуку?
Уряди регулярно вимагають від пошукових служб зняти або знизити рейтинг веб-сайтів, які вважаються політично небажаними. Підприємства можуть платити постачальникам, щоб збільшити певні результати порівняно з іншими, щоб збільшити свої доходи. Брандмауери можуть втручатися в результати, перш ніж вони будуть передані користувачам.
Навіть, здавалося б, нешкідливі зміни алгоритмів ранжування, які можуть виявитись не на поверхні, можуть виявитись упередженими, насправді можуть бути розроблені таким чином, щоб завдати шкоди веб-сайтам, які мають загальний атрибут (не пов'язаний з фактичною якістю).
Чи можливо виявити упередженість пошукових систем, скажімо, за результатами моніторингу протягом певного періоду часу та оцінюючи, чи є якась "прихована змінна" (можливо, політична приналежність) рушійним фактором у зміні рейтингу веб-сайтів?
Підлий постачальник може з часом поступово знижувати рейтинг цільових веб-сайтів (і, можливо, випадкових веб-сайтів, а також відволікати користувачів). Які обмеження щодо кількості упередженості, яку може ввести постачальник послуг без виявлення? Або можливо завжди приховувати подібні втручання, безсумнівно вибираючи зважені критерії ранжування, які випадково дають передбачуваний результат (шляхом "простеження даних").
Чи зміниться щось із цього, якщо критерії ранжування оприлюднені? Чи потрібно нам відкривати джерело критеріїв, якими користуються пошукові системи?
Це нагадує мені результат, що виявлення того, чи був такий підроблений фінансовий інструмент, як CDO, підроблений продавцем, є рівнозначним вирішенню проблеми найгустішого підграфа:
http://www.cs.princeton.edu/~rongge/derivative.pdf
Дякую!