Середня середня точність та середній реципрочний ранг

Я намагаюся зрозуміти, коли доречно використовувати MAP та коли MRR слід використовувати. Я знайшов цю презентацію, в якій зазначається, що MRR найкраще використовувати, коли кількість відповідних результатів менше 5, а найкраще, коли це 1. В інших випадках ПДЧ є відповідним. У мене є два питання:

Я не дуже розумію, чому це так.
Я не можу знайти посилання на цю претензію.

Зауважте, що у мене немає дуже сильного статистичного підґрунтя, тому пояснення мирян дуже допоможуть. Дякую.

information-retrieval average-precision

— КГ
джерело

Уявіть, що у вас є якісь запити, і ваша система пошуку повернула вам список рейтингу з перших 20 пунктів, які він вважає найбільш відповідними вашому запиту. Тепер також уявіть, що в цьому є основна правда, що насправді для кожного з цих 20 ми можемо сказати, що "так" - це відповідна відповідь, або "ні" це не так.

Середній взаємний рейтинг (MRR) дає загальний показник якості в цих ситуаціях, але MRR піклується лише про один найвищий рейтинг відповідного предмета . Якщо ваша система повертає відповідний елемент на третьому місці за висотою, це стосується MRR. Не байдуже, чи інші релевантні елементи (якщо припустити, що вони є) займають номер 4 або номер 20.

Отже, MRR доцільно судити про систему, де (а) є лише один релевантний результат, або (b) у вашому випадку використання ви дійсно дбаєте лише про найвищого рейтингу. Це може бути правдою в деяких сценаріях веб-пошуку, наприклад, коли користувач просто хоче знайти одне, на що натиснути, вони більше не потребують. (Хоча це, як правило, правда, або ви були б більш задоволені пошуком в Інтернеті, який дав десять досить хороших відповідей, і ви можете зробити власне судження про те, на кого з них натиснути ...?)

Середня середня точність (ПДЧ) враховує, чи всі релевантні елементи мають високу оцінку. Тож у прикладі топ-20 важливо не лише чи є відповідна відповідь під номером 3, але й важливо, чи всі пункти "так" у цьому списку зведені до вершини.

Коли у вашому наборі даних є лише одна відповідна відповідь, MRR та MAP є рівнозначними за стандартним визначенням MAP.

Щоб зрозуміти, чому, розглянемо наступні іграшкові приклади, натхненні прикладами в цій публікації в блозі :

Приклад 1

Запит: "Столиця Каліфорнії"

Результати: "Портленд", "Сакраменто", "Лос-Анджелес"

Результати ранжування (бінарне значення): [0, 1, 0]

Кількість можливих правильних відповідей: 1

Взаємний ранг: $\frac{1}{2}$

Точність на 1: $\frac{0}{1}$

Точність у 2: $\frac{1}{2}$

Точність у 3: $\frac{1}{3}$

Середня точність = . $\frac{1}{m} * \frac{1}{2} = \frac{1}{1}*\frac{1}{2} = 0.5$

Як бачимо, середня точність запиту з точно однією правильною відповіддю дорівнює зворотному рангу правильного результату. Звідси випливає, що MRR збірки таких запитів буде дорівнювати його MAP. Однак, як показано в наступному прикладі, речі розходяться, якщо є більше однієї правильної відповіді:

Приклад 2

Запит: "Міста в Каліфорнії"

Результати: "Портленд", "Сакраменто", "Лос-Анджелес"

Результати рейтингу (бінарне значення): [0, 1, 1]

Кількість можливих правильних відповідей: 2

Взаємний ранг: $\frac{1}{2}$

Точність на 1: $\frac{0}{1}$

Точність у 2: $\frac{1}{2}$

Точність у 3: $\frac{2}{3}$

Середня точність = . $\frac{1}{m} * \big[ \frac{1}{2} + \frac{2}{3} \big] = \frac{1}{2} * \big[ \frac{1}{2} + \frac{2}{3} \big] = 0.38$

Таким чином, вибір MRR проти MAP в цьому випадку повністю залежить від того, чи хочете ви чи не на рейтинг після першого правильного удару впливати.

— Ден Стоуелл
джерело