Тест значущості на основі точності / відкликання / F1

Чи можливо зробити тест на значущість виключно на балах точності / відкликання / F1?

Наприклад, якщо ви зіткнулися з двома системами в документі, про який повідомляється лише P / R / F1 (на одному і тому ж наборі даних тощо), чи можете ви потім провести тест на статистичну значимість? Якщо так, то як це робиться?

statistical-significance precision-recall

— Вам
джерело

Інтуїтивно зрозуміло, що отримати високий P / R / F1 на невеликому наборі даних або на дуже рівномірному / передбачуваному наборі даних, мабуть, простіше, ніж отримати високий P / R / F1 на великих або більш хаотичних наборах даних. Таким чином, поліпшення P / R / F1 на більшій та хаотичній базі даних є більш значущою.

Дотримуючись цієї інтуїції, можливо, вам знадобиться доступ до результатів методів "чорної скриньки", щоб виміряти різницю в розподілі результатів, враховуючи при цьому розмір та різноманітність у цьому наборі. Тільки P / R / F1, ймовірно, занадто мало інформації.

Тестування значущості в цьому параметрі зазвичай проводиться шляхом формування нульової гіпотези (два алгоритми дають завжди один і той же результат), а потім обчислює ймовірність спостереження різниці у виході, яку ви спостерігаєте, якби алгоритми були дійсно однаковими. Наприклад, якщо ймовірність менше 0,05, ви відкидаєте нульову гіпотезу і робите висновок, що поліпшення є значним.

У цьому документі є відповідні дискусії: http://www.aclweb.org/anthology/C00-2137

— Пабло Мендес
джерело