В даний час я використовую кілька різних класифікаторів для різних об'єктів, витягнутих з тексту, і використовую точність / згадування як підсумок того, наскільки добре працює кожен окремий класифікатор для певного набору даних.
Мені цікаво, чи є змістовний спосіб порівняння продуктивності цих класифікаторів аналогічним чином, але який також враховує загальну кількість кожного об'єкту в тестових даних, які класифікуються?
Наразі я використовую точність / відкликання як міру продуктивності, тому може мати щось на зразок:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Однак, набір даних, на який я їх запускаю, може містити 100 тис. Людей, 5 тис. Компаній, 500 сирів та 1 яйце.
Отже, чи є підсумкова статистика, яку я можу додати до наведеної вище таблиці, яка також враховує загальну кількість кожного елемента? Або існує якийсь спосіб вимірювання того факту, що, наприклад, 100% прек / рек на класифікаторі яєць, можливо, не має значення лише з одним елементом даних?
Скажімо, у нас було сотні таких класифікаторів, я думаю, я шукаю хороший спосіб відповісти на запитання на кшталт "Які класифікатори неефективні? Яким класифікаторам не вистачає даних тесту, щоб сказати, чи не відповідають вони?".