Інтуїтивно зрозуміло, що отримати високий P / R / F1 на невеликому наборі даних або на дуже рівномірному / передбачуваному наборі даних, мабуть, простіше, ніж отримати високий P / R / F1 на великих або більш хаотичних наборах даних. Таким чином, поліпшення P / R / F1 на більшій та хаотичній базі даних є більш значущою.
Дотримуючись цієї інтуїції, можливо, вам знадобиться доступ до результатів методів "чорної скриньки", щоб виміряти різницю в розподілі результатів, враховуючи при цьому розмір та різноманітність у цьому наборі. Тільки P / R / F1, ймовірно, занадто мало інформації.
Тестування значущості в цьому параметрі зазвичай проводиться шляхом формування нульової гіпотези (два алгоритми дають завжди один і той же результат), а потім обчислює ймовірність спостереження різниці у виході, яку ви спостерігаєте, якби алгоритми були дійсно однаковими. Наприклад, якщо ймовірність менше 0,05, ви відкидаєте нульову гіпотезу і робите висновок, що поліпшення є значним.
У цьому документі є відповідні дискусії:
http://www.aclweb.org/anthology/C00-2137