Вимірювання продуктивності різних класифікаторів з різними розмірами вибірки

12

В даний час я використовую кілька різних класифікаторів для різних об'єктів, витягнутих з тексту, і використовую точність / згадування як підсумок того, наскільки добре працює кожен окремий класифікатор для певного набору даних.

Мені цікаво, чи є змістовний спосіб порівняння продуктивності цих класифікаторів аналогічним чином, але який також враховує загальну кількість кожного об'єкту в тестових даних, які класифікуються?

Наразі я використовую точність / відкликання як міру продуктивності, тому може мати щось на зразок:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Однак, набір даних, на який я їх запускаю, може містити 100 тис. Людей, 5 тис. Компаній, 500 сирів та 1 яйце.

Отже, чи є підсумкова статистика, яку я можу додати до наведеної вище таблиці, яка також враховує загальну кількість кожного елемента? Або існує якийсь спосіб вимірювання того факту, що, наприклад, 100% прек / рек на класифікаторі яєць, можливо, не має значення лише з одним елементом даних?

Скажімо, у нас було сотні таких класифікаторів, я думаю, я шукаю хороший спосіб відповісти на запитання на кшталт "Які класифікатори неефективні? Яким класифікаторам не вистачає даних тесту, щоб сказати, чи не відповідають вони?".

classification performance

— Дейв Чалліс
джерело

Якщо у вас є різні класифікатори, які навчаються на різних наборах даних, як ви можете їх порівняти змістовно? На думку приходять яблука та апельсини, крейда та сир. Крім того, якщо у вас є класичні класифікатори, як ви обчислюєте точність і згадуєте? Навіть знати N = 1 не обов’язково корисно - якщо у світі є лише одне яйце, ваш класифікатор яєць - це добре.

— Бул

Вони різні класифікатори, які навчаються на одних наборах даних, наприклад, ми знаємо, що у нас є документ, що стосується яблук і апельсинів, тому ми запускаємо на ньому класифікатор яблук, щоб визначити тип яблука, про який йде мова, і помаранчевий класифікатор для визначення типу апельсина це говорить про. Якщо наші документи складають 99% про яблука, 1% - про апельсини, і обидва класифікатори мають однаковий prec / rec (підсумовування рядків / знаків за матрицею плутанини), чи є якась інформація, яку ми можемо представити, яка враховує різниці в кількості кожного ? (можливо, що ні, немає, це відповідь, з якою я був би задоволений)

— Дейв Challis

5

Потрібно подивитися на довірчий інтервал статистики. Це допомагає виміряти, скільки невизначених у статистиці, що значною мірою залежить від розміру вибірки.

— Крістофер Луден
джерело

2

На мою думку, складно порівняти продуктивність, коли є така велика різниця у розмірах. На цьому посиланні (будь ласка, перегляньте це тут у Вікіпедії http://en.wikipedia.org/wiki/Effect_size ), ви можете побачити різні стратегії.

Я пропоную той, що стосується дисперсії. Наприклад, розглянемо ефективність класифікатора (100%) та особи класифікатора (65%). Мінімальна помилка, яку ви допускаєте з колишнім класифікатором, - 100%. Однак мінімальна помилка, яку ви можете допустити за допомогою останнього класифікатора, - 10e-5.

Тож один із способів порівняння класифікатора - мати на увазі це правило трьох правил ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics), де можна порівняти продуктивність та її мінливість.

Іншою можливістю є F-міра, яка є комбінацією точності та відкликання, і якимось чином не залежить від розміру ефекту.

— adesantos
джерело

2

Кількість даних у класі іноді називають supportкласифікатором. Це говорить про те, наскільки ви можете довіряти своєму результату, так як значення p дозволило б вам довіряти чи недовіряти якомусь тесту.

Один із підходів, який ви можете використати, - це обчислити кілька заходів ефективності класифікатора не тільки точності та відкликання, але й справжньої позитивної ставки, помилкової позитивної ставки, специфічності, чутливості, позитивної ймовірності, негативної ймовірності тощо, і побачити, чи відповідають вони один одному . Якщо один із заходів перевищує максимум (100%), а інший - ні, це, на мій досвід, часто свідчить про те, що щось пішло не так (наприклад, погана підтримка, тривіальний класифікатор, упереджений класифікатор тощо). Дивіться це для переліку заходів щодо ефективності класифікатора.

— Даміенфрансуа
джерело