Як класифікувати мільйон зображень за допомогою сортування з використанням краудсорсингу

Question 1

Я хотів би класифікувати колекцію пейзажних зображень, склавши гру, за допомогою якої відвідувачі сайту можуть оцінювати їх, щоб з’ясувати, які образи люди вважають найбільш привабливими.

Що було б хорошим методом для цього?

Гарячий чи ні-стиль ? Тобто покажіть одне зображення, попросіть користувача оцінити його з 1-10. Як я бачу, це дозволяє мені усереднювати бали, і мені просто потрібно було б забезпечити рівномірний розподіл голосів на всіх зображеннях. Досить простий у реалізації.
Виберіть A-or-B ? Тобто показують два зображення, попросіть користувача вибрати краще. Це приваблює, оскільки немає числового рейтингу, це лише порівняння. Але як би я це реалізував? Моя перша думка полягала в тому, щоб зробити це як швидку сортування, причому операції порівняння забезпечували люди, а після завершення просто повторити сортування ad-infinitum.

Як би ти це зробив?

Якщо вам потрібні цифри, я говорю про мільйон зображень на сайті з 20 000 відвідувань щодня. Я гадаю, невелика частина може грати у цю гру, заради аргументу, скажімо, я можу заробляти 2000 операцій сортування людей на день! Це некомерційний веб-сайт, і остаточно цікаві знайдуть його через мій профіль :)

Question 2

Як казали інші, рейтинг 1-10 працює не так добре, оскільки люди мають різний рівень.

Проблема методу Pick A-or-B полягає в тому, що не гарантується, що система буде транзитивною (A може перемогти B, але B перемагає C, а C перемагає A). Наявність нетранзитивних операторів порівняння порушує алгоритми сортування . У випадку швидкого сортування, проти цього прикладу, літери, не вибрані як опорні, будуть неправильно ранжировані одна проти одної.

У будь-який момент вам потрібен абсолютний рейтинг усіх фотографій (навіть якщо деякі / всі вони пов’язані). Ви також хочете, щоб ваш рейтинг не змінювався, якщо хтось не проголосує .

Я б скористався методом Pick A-or-B (або tie) , але визначив рейтинг, подібний до рейтингової системи Elo, яка використовується для рейтингу в партіях для двох гравців (спочатку шахи):

Система рейтингу гравців Elo порівнює записи матчів гравців із записами матчів їх суперників та визначає ймовірність перемоги гравця в матчі. Цей коефіцієнт ймовірності визначає, на скільки балів рейтинг гравців піднімається або знижується на основі результатів кожного матчу. Коли гравець перемагає суперника з вищим рейтингом, рейтинг гравця зростає більше, ніж якщо він або вона перемогли гравця з нижчим рейтингом (оскільки гравці повинні перемагати супротивників, які мають нижчий рейтинг).

Система Elo:

Всі нові гравці починають з базового рейтингу 1600
WinProbability = 1 / (10 ^ ((Поточний рейтинг супротивника - Поточний рейтинг гравця) / 400) + 1)
ScoringPt = 1 бал, якщо вони виграють матч, 0, якщо програють, і 0,5 за нічию.
Новий рейтинг гравця = Старий рейтинг гравця + (K-значення * (ScoringPt – ймовірність перемоги гравця))

Замініть "гравців" картинками, і ви отримаєте простий спосіб регулювання рейтингу обох картин на основі формули. Потім ви можете виконати рейтинг, використовуючи ці числові оцінки. (K-Value тут - "Рівень" турніру. Він становить 8-16 для невеликих місцевих турнірів і 24-32 для більших запрошених / регіоналів. Ви можете просто використовувати константу, як 20).

За допомогою цього методу вам потрібно зберегти лише одне число для кожного зображення, що набагато менше вимагає пам'яті, ніж збереження окремих рядків кожного зображення один до одного.

EDIT: Додано трохи більше м’яса на основі коментарів.

Question 3

Більшість наївних підходів до проблеми мають кілька серйозних проблем. Найгірше те, як bash.org та qdb.us відображають котирування - користувачі можуть проголосувати за котирування вгору (+1) або вниз (-1), а список найкращих котирувань сортується за загальним чистим балом. Це страждає від жахливого часового упередження - старі цитати накопичили величезну кількість позитивних голосів завдяки простому довголіття, навіть якщо вони лише незначно жартівливі. Цей алгоритм може мати сенс, якби жарти ставали веселішими, коли вони старіли, але - повірте, вони цього не роблять.

Існують різні спроби це виправити - дивлячись на кількість позитивних голосів за певний період, зважуючи нещодавні голоси, запроваджуючи систему затухання для старих голосів, обчислюючи відношення позитивних та негативних голосів тощо. Більшість страждають від інших недоліків.

Я вважаю, що найкращим рішенням є те, яке використовують веб-сайти The Funniest The Cutest , The Fairest і Best Thing - модифікована система голосування Condorcet :

Система надає кожному число, виходячи з того, з чим стикалася, скільки відсотків із них вона зазвичай перемагає. Отже, кожен отримує відсотковий бал NumberOfThingsIBeat / (NumberOfThingsIBeat + NumberOfThingsThatBeatMe). Крім того, речі заборонені до верхнього списку, поки їх не порівняють з розумним відсотком від набору.

Якщо у наборі є переможець Condorcet, цей метод знайде його. Оскільки це малоймовірно, враховуючи статистичну природу, він знаходить того, хто є найближчим до переможця Кондорсе.

Для отримання додаткової інформації щодо впровадження таких систем корисною буде сторінка Вікіпедії з рейтинговими парами .

Алгоритм вимагає, щоб люди порівнювали два об'єкти (ваш варіант "вибрати" або "B"), але, чесно кажучи, це добре. Я вважаю, що в теорії прийняття рішень дуже добре прийнято, що люди набагато краще порівнюють два об'єкти, ніж вони мають абстрактний рейтинг. Мільйони років еволюції роблять нас добрими в збиранні найкращого яблука з дерева, але страшним у вирішенні того, наскільки ті яблука, які ми зібрали, відповідають справжній платонічній формі яблуні. (Це, до речі, чому процес аналітичної ієрархії такий витончений ... але це трохи відходить від теми.)

Останнє, що слід сказати, полягає в тому, що SO використовує алгоритм для пошуку найкращих відповідей, який дуже схожий на алгоритм bash.org для пошуку найкращої цитати. Тут це добре працює, але там жахливо не вдається - багато в чому тому, що тут, швидше за все, буде відредагована стара, високо оцінена, але тепер застаріла відповідь. bash.org не дозволяє редагувати, і незрозуміло, як Ви хотіли б навіть редагувати десятилітні давно жарти про давно встановлені меми в Інтернеті, навіть якби могли ... У будь-якому випадку, я хочу сказати, що зазвичай правильний алгоритм залежить від деталей вашої проблеми. :-)

Question 4

Я знаю, що це запитання досить давнє, але я думав, що внесу свій внесок

Я б подивився на систему TrueSkill, розроблену в Microsoft Research. Це як ELO, але має набагато швидший час конвергенції (виглядає експоненціально порівняно з лінійним), тому ви отримуєте більше від кожного голосування. Однак це математично складніше.

http://en.wikipedia.org/wiki/TrueSkill

Question 5

Мені не подобається стиль Hot-or-Not . Різні люди вибирали б різні цифри, навіть якби їм сподобався образ абсолютно однаково. Крім того, я ненавиджу оцінку речей із 10, я ніколи не знаю, який номер вибрати.

Вибір A-or-B набагато простіший і веселіший. Ви бачите два зображення, і проводиться порівняння зображень на сайті.

Question 6

Ці рівняння з Вікіпедії спрощують / ефективніше розраховують рейтинги Ело, алгоритм для зображень А і В буде простим:

Отримайте Ne, mA, mB та оцінки RA, RB зі своєї бази даних.
Обчисліть KA, KB, QA, QB, використовуючи кількість виконаних порівнянь (Ne) та кількість випадків, коли це зображення порівнювалось (m), та поточні рейтинги:

$К$

$QA$

$QB$

Обчисліть EA та EB.

$EA$

$EB$

Оцініть S переможця: переможець 1, програв 0, а якщо у вас нічия 0,5,
Обчисліть нові рейтинги для обох, використовуючи: $Новий рейтинг$
Оновіть нові рейтинги RA, RB та підрахунки mA, mB у базі даних.

Question 7

Можливо, ви захочете піти з комбінацією.

Перша фаза: стиль "гарячий чи ні" (хоча я хотів би взяти 3 голоси: відстій, Meh / OK. Класно!)

Після того, як ви відсортуєте набір за 3 сегментами, я вибрав би два зображення з одного сегмента і пішов би з пунктом "Що приємніше"

Потім ви можете скористатися англійською футбольною системою просування та зниження для переміщення кількох найкращих «відстійників» у регіон Meh / OK, щоб уточнити крайові випадки.

Question 8

Рейтинг 1-10 не спрацює, кожен має різні рівні. Хтось, хто завжди дає оцінки 3-7, його рейтинг затьмарюють люди, які завжди дають оцінку 1 або 10.

a-or-b є більш працездатним.

Question 9

Ого, я запізнився в грі.

Мені дуже подобається система ELO, але, як каже Оуен, мені здається, ви б повільно створювали якісь важливі результати.

Я вважаю, що люди мають набагато більший потенціал, ніж просто порівняння двох зображень, але ви хочете звести взаємодію до мінімуму.

Тож як щодо того, щоб ви показали n зображень (n - це будь-яке число, яке ви можете помітно відобразити на екрані, це може бути 10, 20, 30 залежно від уподобань користувача), і змусити їх вибрати, яке, на їх думку, найкраще в цій партії. Тепер повернемось до ELO. Вам потрібно змінити свою систему рейтингу, але зберігати той самий дух. Ви фактично порівняли одне зображення з n-1 іншими. Таким чином, ви робите свій рейтинг ELO n-1 разів, але ви повинні розділити зміну рейтингу на n-1, щоб відповідати (так, щоб результати з різними значеннями n були узгоджені між собою).

Ви закінчили. Ви отримали найкраще з усіх світів. Проста система рейтингу, яка працює з багатьма зображеннями в один клік.

Question 10

Якщо ви віддаєте перевагу використанню стратегії Pick A або B, я рекомендую цей документ: http://research.microsoft.com/en-us/um/people/horvitz/crowd_pairwise.pdf

Chen, X., Bennett, PN, Collins-Thompson, K., & Horvitz, E. (2013, лютий). Агрегація парного рейтингу в умовах краудсорсингу. У матеріалах шостої міжнародної конференції ACM з веб-пошуку та видобутку даних (стор. 193-202). ACM.

Стаття розповідає про модель Crowd-BT, яка поширює відому модель попарного порівняння Бредлі-Террі на краудсорсинг. Він також надає адаптивний алгоритм навчання для підвищення часової та просторової ефективності моделі. Ви можете знайти реалізацію Matlab алгоритму на Github (але я не впевнений, що це працює).

Question 11

Неіснуючий веб-сайт whatsbetter.com використовував метод стилю Ело . Ви можете прочитати про метод у їх поширених запитаннях в Інтернет-архіві .

Question 12

Виберіть A-or-B - найпростіший і менш схильний до упередженості, однак при кожній людській взаємодії він дає вам значно менше інформації. Я думаю, що завдяки зменшенню упередженості, Pick перевершує, і в межах, що надає вам ту саму інформацію.

Дуже проста схема підрахунку - це підрахунок для кожного зображення. Коли хтось дає позитивне порівняльне збільшення, підрахунок, коли хтось дає негативне порівняння, зменшуйте рахунок.

Сортування 1-мільйонного цілочисельного списку відбувається дуже швидко і на сучасному комп’ютері займе менше секунди.

Тим не менш, проблема досить неправильно поставлена - для того, щоб показати кожне зображення лише один раз, вам знадобиться 50 днів.

Б'юсь об заклад, хоча вас більше цікавлять найвищі рейтинги зображень? Отже, ви, мабуть, хочете упереджити отримання зображень за прогнозованим рангом - так ви, швидше за все, покажете зображення, які вже отримали кілька позитивних порівнянь. Таким чином ви швидше просто почнете показувати "цікаві" зображення.

Question 13

Мені подобається варіант швидкого сортування, але я зробив кілька твіків:

Зберігайте результати "порівняння" в БД, а потім усереднюйте їх.
Отримайте більше одного порівняння на одне представлення, надавши користувачеві 4-6 зображень і попросивши їх відсортувати.
Виберіть, які зображення відображати, запустивши qsort та записавши та обрізавши все, на чому у вас недостатньо даних. Потім, коли у вас буде записано достатньо елементів, виплюньте сторінку.

Іншим цікавим варіантом було б використання натовпу для навчання нейронної мережі.