Нещодавно мені довелося вибрати метрику для оцінювання багаторівневих алгоритмів ранжирування і перейшов до цієї теми, що було дуже корисно. Ось кілька доповнень до відповіді stpk, які були корисними для вибору.
- MAP може бути адаптований до задач, що мають багато міток, ціною наближення
- MAP не потрібно обчислювати при k, але багатозначна версія може бути не адаптована, коли негативний клас є переважаючим
- MAP і (N) DCG можуть бути переписані як середньозважене середнє значення рейтингових значень релевантності
Деталі
Зосередимося на середній точності (AP), оскільки середня точність (MAP) - це лише середнє значення AP за кількома запитами. AP належним чином визначається на бінарних даних як область під кривою точності відкликання, яку можна переписати як середнє значення точок на кожному позитивному елементі. (див . статтю у Вікіпедії на MAP ) Можливе наближення - визначити його як середнє значення точок на кожномупункт. На жаль, ми втрачаємо приємну властивість того, що негативні приклади, розміщені в кінці списку, не впливають на значення AP. (Це особливо сумно, коли мова йде про оцінку пошукової системи, що має набагато більше негативних прикладів, ніж позитивних прикладів. Можливе вирішення питання - підгрупувати негативні приклади ціною інших недоліків, наприклад запити з більш позитивними елементами стануть однаковими важко для запитів з кількома позитивними прикладами.)
З іншого боку, це наближення має приємну властивість, що воно добре узагальнює багатозначний випадок. Дійсно, у двійковому випадку точність у положенні k також може бути інтерпретована як середня відповідність перед позицією k, де релевантність позитивного прикладу дорівнює 1, а релевантність негативного прикладу - 0. Це визначення поширюється цілком природно на випадок, коли існує більше двох різних рівнів релевантності. У цьому випадку AP також можна визначити як середнє значення середніх значень на кожній позиції.
k
wAPk=1Klog(Kk)
K
wDCGk=1log(k+1)
З цих двох виразів можна зробити висновок, що - AP зважує документи від 1 до 0. - DCG зважує документи незалежно від загальної кількості документів.
В обох випадках, якщо є набагато більше неактуальних прикладів, ніж відповідні приклади, загальна вага позитиву може бути незначною. Що стосується AP, вирішення завдання полягає в підпробовуванні негативних зразків, але я не впевнений, як вибрати пропорцію субпрограмування, а також чи зробити це залежним від запиту чи від кількості позитивних документів. Для DCG ми можемо скоротити його на k, але виникають такі ж запитання.
Я був би радий дізнатися більше про це, якби хтось тут працював над цією темою.