F1 / Оцінка на кістки та ІУ


24

Мене збентежили розбіжності між оцінкою F1, оцінками Dice та IoU (перехрестя над об'єднанням). На сьогодні я дізнався, що F1 і Dice означають одне і те ж (так?), І IoU має дуже схожу формулу з двома іншими.

  • F1 / кістки:
    2ТП2ТП+ЖП+ЖN
  • IoU / Жакард:
    ТПТП+ЖП+ЖN

Чи є якісь практичні відмінності чи інші речі, які варто зауважити, за винятком того, що F1 важить справжнісінькі позитиви вище? Чи є ситуація, коли я використовував би одне, а не друге?


Мабуть, коефіцієнт Жаккарда також такий же, як ІО
піт

Мені буде особливо цікаво, якщо деякі з цих (зараз 4) вимірювань призначені лише для двійкових даних.
пітс

Відповіді:


38

Ви на правильному шляху.

Ж/2ЯоUЖ

ЯоU/Ж=1/2+ЯоU/2

Але є більш сильне твердження, яке можна зробити для типового застосування класифікації a la machine learning. Для будь-якої фіксованої "основної істини" дві метрики завжди позитивно співвідносяться. Тобто, якщо класифікатор A краще, ніж B за однією метрикою, він також кращий, ніж класифікатор B під іншим показником.

Тоді заманливо зробити висновок, що дві метрики функціонально рівнозначні, тому вибір між ними довільний, але не такий швидкий! Проблема виникає при взятті середнього балу за набір висновків . Тоді різниця з'являється при кількісному оцінці, наскільки гірший класифікатор B, ніж А для будь-якого випадку.

В цілому, метрика IoU, як правило, штрафує поодинокі випадки поганої класифікації, ніж оцінка F, навіть коли вони можуть погодитися, що цей один екземпляр поганий. Аналогічно тому, як L2 може штрафувати найбільші помилки, ніж L1, метрика IoU, як правило, впливає на похибки щодо помилки F. Таким чином, показник F має тенденцію вимірювати щось наближене до середнього показника, тоді як показник IoU вимірює щось наближене до найгіршого показника.

Припустимо, наприклад, що переважна більшість висновків помітно краща з класифікатором А, ніж В, але деякі з них значно гірші за допомогою класифікатора А. Можливо, тоді F метрика надає перевагу класифікатору А, тоді як метричний показник IoU надає перевагу класифікатор B.

Безумовно, обидві ці показники набагато схожіші, ніж вони різні. Але обидва вони страждають ще одним недоліком з точки зору взяття середніх показників за багатьма висновками: вони обидва завищують важливість наборів із малопоточними фактичними позитивними істинними наборами. У загальному прикладі сегментації зображень, якщо зображення має лише один піксель якогось класу, який можна виявити, і класифікатор виявляє цей піксель та один інший піксель, його F-бал становить 2/3, а IoU - ще гірший на 1 / 2. Тривіальні помилки, подібні цим, можуть серйозно домінувати над середнім балом, прийнятим за набір зображень. Коротше кажучи, вона зважує кожну піксельну помилку, обернено пропорційну розміру вибраного / відповідного набору, а не обробляючи їх однаково.

c0c1


Віллем, я не міг би попросити кращої відповіді. дуже дякую, що знайшли час.
пітце

5
Я спробував ваш загальний підхід до помилок і просто хотів додати, що він не працює добре при постійних дисбалансах між позитивом і негативом. Уявіть цілий набір зображень, де лише один піксель складає основну сегментацію правди. Нейронні мережі можуть досить швидко дізнатися, що порожній прогноз завжди точний на 99,9%, використовуючи загальну помилку. Ідучи з IoU або DSC, ми тискуємо мережу на пошук сегментації через ті самі причини, про які ви згадали вище. Отже, зрештою, це дуже залежить від проблеми.
пітс

1
Чи може хтось допомогти мені узгодити наступні два твердження ?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."та 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Метт Клейнсміт

1
Перший відноситься до оцінки одного виводу, а другий стосується середнього балу за набором умовиводів (наприклад, набором зображень).
willem
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.