Як інтерпретувати значення F-вимірювання?


41

Я хотів би знати, як інтерпретувати різницю значень f-вимірювання. Я знаю, що f-міра - це збалансоване середнє значення між точністю та відкликанням, але я запитую про практичне значення різниці у F-мірах.

Наприклад, якщо класифікатор C1 має точність 0,4, а інший класифікатор C2 - точність 0,8, то можна сказати, що C2 правильно класифікував подвійний тестовий приклад порівняно з C1. Однак якщо класифікатор C1 має F-міру 0,4 для певного класу, а інший класифікатор C2 - F-міру 0,8, що ми можемо констатувати про різницю в продуктивності двох класифікаторів? Чи можемо ми сказати, що C2 класифікував X більше випадків правильно, що це C1?


2
Я не впевнений, що ви можете сказати багато, оскільки F-міра є функцією як точності, так і згадування: en.wikipedia.org/wiki/F1_score . Ви можете зробити математику, хоча і потримати одну (точність або згадування) постійною і сказати щось про інше.
Нік

Відповіді:


41

Я не можу придумати інтуїтивне значення міри F, оскільки це просто комбінована метрика. Що інтуїтивніше, ніж F-mesure, звичайно, це точність і відкликання.

Але, використовуючи два значення, ми часто не можемо визначити, чи один алгоритм перевершує інший. Наприклад, якщо один алгоритм має більш високу точність, але менший виклик, ніж інші, як ви можете сказати, який алгоритм кращий?

Якщо у вас в голові є певна мета, як-от «Точність - це король. Мене мало хвилює відкликання ', тоді проблем немає. Чим вища точність, тим краще. Але якщо у вас немає такої сильної мети, ви хочете комбінувати показник. Це F-міра. Використовуючи його, ви порівняєте деяку точність і частину відкликання.

Крива ROC часто малюється, вказуючи F-міру. Ця стаття може бути цікавою, оскільки вона містить пояснення щодо декількох заходів, включаючи криві ROC: http://binf.gmu.edu/mmasso/ROC101.pdf


23

Важливість оцінки F1 різна за сценарієм. Давайте припустимо, що цільова змінна є двійковою міткою.

  • Збалансований клас: У цій ситуації оцінка F1 може бути ефективно ігнорована, ключовим є показник неправильної класифікації.
  • Неврівноважений клас, але обидва класи важливі: Якщо розподіл класів сильно перекошений (наприклад, 80:20 або 90:10), класифікатор може отримати низький рівень неправильної класифікації, просто вибравши клас більшості. У такій ситуації я вибрав би класифікатор, який отримує високі бали F1 в обох класах, а також низький показник неправильної класифікації. Класифікатор, який отримує низькі показники F1, повинен не помітити.
  • Неврівноважений клас, але один клас, якщо важливіший інший. Наприклад, наприклад, у виявленні шахрайств важливіше правильно позначити екземпляр як шахрайський, на відміну від маркування такого, який не є шахрайським. У цьому випадку я б обрав класифікатор, який має хороший показник F1 лише для важливого класу . Нагадаємо, що бал F1 доступний для кожного класу.

9

F-міра має інтуїтивне значення. Він говорить про те, наскільки точним є ваш класифікатор (скільки примірників він правильно класифікує), а також наскільки надійний (він не пропускає значної кількості примірників).

З високою точністю, але з низьким рівнем нагадування, ви класифікатор надзвичайно точний, але він пропускає значну кількість випадків, які важко класифікувати. Це не дуже корисно.

Погляньте на цю гістограму. введіть тут опис зображенняІгноруйте його первісне призначення.

Праворуч ви отримуєте високу точність, але низьку віддачу. Якщо я виберу лише екземпляри з оцінкою вище 0,9, мої класифіковані екземпляри будуть надзвичайно точними, проте я пропустив значну кількість примірників. Експерименти показують, що солодке місце тут близько 0,76, де показник F становить 0,87.


5

Міра F - це гармонійне середнє значення вашої точності та відкликання. У більшості ситуацій у вас є компроміс між точністю та відкликанням. Якщо ви оптимізуєте свій класифікатор, щоб збільшити одне, а інше нехтувати, середнє значення гармонійних скорочень скорочується. Однак найбільше, коли точність і відкликання рівні.

З огляду на F-міри 0,4 та 0,8 для ваших класифікаторів, ви можете розраховувати, що це там, де максимальні значення, досягнуті при зважуванні точності проти відкликання.

Для візуального ознайомлення подивіться на цю фігуру з Вікіпедії :

введіть тут опис зображення

F-міра H , A і B - це відкликання та точність. Можна збільшити одне, але тоді інше зменшується.


Я знайшов візуалізацію «Перехрещених сходів» трохи простішою - для мене це робить рівність A = B, в результаті чого найбільша H стає більш інтуїтивно зрозумілою
Coruscate5

3

Формула F-міри (F1, з бета = 1) така ж, як формула, що дає еквівалентний опір, складений з двох опорів, розміщених паралельно у фізиці (забувши про фактор 2).

Це може дати вам можливу інтерпретацію, і ви можете думати як про електронні, так і про термічні опори. Ця аналогія визначала F-міру як еквівалентний опір, утворений чутливістю та точністю, розміщеними паралельно.

Для F-вимірювання максимально можливий показник 1, і ви втрачаєте опір, як тільки один з двох також втрачає опір (це занадто скажімо, отримуйте значення нижче 1). Якщо ви хочете краще зрозуміти цю величину та її динаміку, подумайте про фізичний феномен. Наприклад, виявляється, що F-міра <= max (чутливість, точність).


3

З точністю по осі y та нагадуванням по осі x нахил кривої рівня при (1, 1) дорівнює .Fβ1/β2

З огляду на і , нехай - відношення вартості помилкових негативів до помилкових позитивних результатів. Тоді загальна вартість помилки пропорційнаОтже, нахил кривої рівня при (1, 1) дорівнює . Тому для хороших моделей, що використовують ви вважаєте, що ви вважаєте помилковими негативи рази дорожчими, ніж помилкові позитиви.

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2

1

ви можете записати рівняння F-вимірювання http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg іншим способом , (як тому, коли , має бути важливішим (або, більшим, отримати вища ).

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
p F ββ2<1pFβ

0

Найближче інтуїтивне значення f1-балу сприймається як середнє відкликання та точність. Розчистимо це для вас:

У класифікаційному завданні ви, можливо, плануєте побудувати класифікатор з високою точністю та згадувати. Наприклад, класифікатор, який говорить про те, чесна людина чи ні.

Для точності ви зазвичай можете точно сказати, скільки чесних людей там у певній групі. У цьому випадку, дбаючи про високу точність, ви припускаєте, що ви можете неправильно класифікувати брехун як чесну, але не часто. Іншими словами, тут ви намагаєтесь визначити брехуна від чесного як цілу групу.

Однак, нагадаємо, ви будете дуже стурбовані, якщо вважаєте брехункою чесною. Для вас це буде великою втратою і великою помилкою, і ви не хочете робити це знову. Крім того, це добре, якщо ви класифікували когось чесного як брехуна, але ваша модель ніколи не повинна (або здебільшого не робити) претендувати на брехуну як на чесну. Іншими словами, тут ви зосереджуєтесь на конкретному класі і намагаєтесь не помилитися з цим.

Тепер візьмемо випадок, коли ви хочете, щоб ваша модель (1) точно ідентифікувала чесного від брехуна (точність) (2) ідентифікувала кожну людину з обох класів (нагадуємо). Що означає, що ви оберете модель, яка буде добре працювати в обох показниках.

Ви прийняли рішення про вибір моделі, потім спробуємо оцінити кожну модель на основі середнього значення двох показників. F-Score - найкращий, який може описати це. Давайте подивимось на формулу:

Нагадаємо: p = tp / (tp + fp)

Нагадаємо: r = tp / (tp + fn)

F-оцінка: fscore = 2 / (1 / r + 1 / p)

Як бачите, чим вище виклик І точність, тим вищий F-бал.


0

Знаючи, що оцінка F1 - це гармонійне середнє значення точності та нагадування, нижче трохи коротко про них.

Я хотів би сказати Нагадаємо більше про помилково негативні .ie, маючи більш високий Recall означає , що є менше Хибнонегативні .

Recall=tptp+fn

Наскільки менше FN або Zero FN означає, що передбачення вашої моделі дійсно добре.

Якщо у вас є більш високі засоби точності, існує менше БУДЬЧИХ ПОЗИТИВ

Precision=tptp+fp

Це ж саме тут, Less або Zero False Positive означає, що передбачення моделі справді добре.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.