Чому F-Measure є середнім гармонічним, а не середнім арифметичним вимірювань Precision and Recall?


86

Коли ми обчислюємо F-міру з урахуванням точності та відкликання, ми беремо середнє гармонічне значення двох мір замість простого середнього арифметичного.

Яка інтуїтивна причина прийняття гармонічного середнього, а не просте середнє значення?


1
Інтуїція полягає в тому, щоб збалансувати точність і відкликання (як правило, найкраще вимірювання, але в деяких випадках ви хочете максимізувати точність або відкликання, що вже зовсім інша історія). Ви не можете отримати високий f-бал, якщо один із них дуже низький.
greeness

1
cse.unsw.edu.au/~teachadmin/info/harmonic3.html Це хороший ресурс для розуміння НМ
Судіп Бхандарі,

2
Виправте посилання вище: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm або оригінал @ archive.org
stason

Відповіді:


16

Тут ми вже маємо кілька розгорнутих відповідей, але я вважав, що додаткова інформація про це була б корисною для деяких хлопців, які хочуть глибше заглибитися (особливо чому F міра).

Відповідно до теорії вимірювання, складова міра повинна відповідати наступним 6 визначенням:

  1. Зв’язаність (можна замовити дві пари) та транзитивність (якщо e1> = e2 та e2> = e3, то e1> = e3)
  2. Незалежність: два компоненти вносять свій ефект незалежно в ефективність.
  3. Умова Томсена: Враховуючи, що при постійному відкликанні (точності) ми знаходимо різницю в ефективності для двох значень точності (відкликання), тоді ця різниця не може бути вилучена або змінена шляхом зміни постійного значення.
  4. Обмежена розв'язність.
  5. Кожен компонент є важливим: варіація одного, залишаючи інший постійним, дає різницю в ефективності.
  6. Архімедове властивість для кожного компонента. Це лише гарантує, що інтервали на компоненті є порівнянними.

Тоді ми можемо вивести і отримати функцію ефективності: введіть тут опис зображення

І зазвичай ми використовуємо не ефективність, а набагато простіший бал F, оскільки :
введіть тут опис зображення

Тепер, коли ми маємо загальну формулу міри F:

введіть тут опис зображення

де ми можемо зробити більший висновок щодо відкликання або точності, встановивши бета-версію, оскільки бета-версія визначається наступним чином:

введіть тут опис зображення

Якщо ми зважуємо вагу, важливішу за точність (усі відповідні вибрані), ми можемо встановити бета-версію як 2 і отримаємо міру F2. І якщо ми робимо реверс і точність ваги вищою за відкликання (якомога більше вибраних елементів релевантні, наприклад, у деяких сценаріях виправлення граматичних помилок, таких як CoNLL ), ми просто встановлюємо бета-версію як 0,5 і отримуємо міру F0,5. І, очевидно, ми можемо встановити бета-версію як 1, щоб отримати в основному використовуваний показник F1 (середнє гармонічне значення точності та відкликання).

Думаю, певною мірою я вже відповів, чому ми не використовуємо середнє арифметичне.

Список літератури:

  1. https://en.wikipedia.org/wiki/F1_score
  2. Правда F-міри
  3. Інформаційний пошук

99

Щоб пояснити, розглянемо, наприклад, що в середньому становить 30 миль на годину та 40 миль на годину? якщо ви їдете протягом 1 години з кожною швидкістю, середня швидкість за ці 2 години насправді є середнім арифметичним, 35 ​​миль в годину.

Однак якщо ви їдете на однаковій відстані з кожною швидкістю - скажімо, 10 миль - тоді середня швидкість понад 20 миль є середнім гармонічним значенням 30 і 40, приблизно 34,3 милі на годину.

Причина полягає в тому, що для того, щоб середнє значення було дійсним, вам дійсно потрібно, щоб значення були в однакових масштабованих одиницях. Милі на годину потрібно порівнювати за однакову кількість годин; для порівняння однієї і тієї ж кількості миль вам натомість потрібно в середньому годину на милю, що саме означає гармонічне значення.

Точність і відкликання мають і справжні позитиви в чисельнику, і різні знаменники. Осереднювати їх насправді має сенс лише усереднювати їхні взаємні значення, таким чином, гармонічне середнє.


7
Дякую, це вагомий аргумент, чому це підтверджується теорією; моя відповідь була більше на прагматичній стороні.
Вийшов - Аноні-Мус

77

Тому що це карає екстремальні цінності більше.

Розглянемо тривіальний метод (наприклад, завжди повернення класу A). Є нескінченні елементи даних класу B та один елемент класу A:

Precision: 0.0
Recall:    1.0

Якщо взяти середнє арифметичне, воно мало б правильність на 50%. Незважаючи на найгірший можливий результат! З середнім гармонічним значенням F1-міра дорівнює 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Іншими словами, щоб мати високий F1, вам обом потрібно мати високу точність і відкликання.


Коли відкликання дорівнює 0,0, точність повинна бути більшою за 0,0? Але я розумію суть на вашому прикладі. Гарно пояснив - Дякую.
Лондонський хлопець

1
У вашому прикладі точність для класу A дорівнює 0,5 замість 0, а відкликання класу A дорівнює 1; точність для класу B дорівнює 0, а відкликання класу B дорівнює 0, як ми будемо. Я припускаю, що ваш збалансований клас означає, що справжніми мітками є A та B; кожна з них стосується 50% даних.
greeness

Давайте зробимо нескінченні елементи класу B і один елемент класу A. Це не змінює математику за F1.
Вийшов - Аноні-Мус

2
Вибір більшої рівноваги - це не просто евристика. Середнє гармонійне - це єдиний спосіб, який має сенс, враховуючи одиниці цих співвідношень. Середнє значення не мало б значення у порівнянні
Шон Оуен

Де там написано "евристика", і де ваш коментар відрізняється від моєї відповіді? Але: F-міра є евристикою, оскільки вона передбачає точність і відкликання однаково важливі. Ось чому потрібно вибрати термін бета - евристично, як правило, використовується бета = 1.
Вийшов - Аноні-Мус

29

Наведені вище відповіді добре пояснені. Це лише для швидкого ознайомлення, щоб зрозуміти природу середнього арифметичного та середнього гармонічного з графіками. Як видно з графіку, розглядайте вісь X та вісь Y як точність та відкликання, а вісь Z як оцінку F1. Отже, з графіку середнього гармонічного, точність і відкликання повинні сприяти рівномірному зростанню оцінки F1 на відміну від середнього арифметичного.

Це для середнього арифметичного.

введіть тут опис зображення

Це для гармонійного середнього.

введіть тут опис зображення


Будь ласка, використовуйте інструменти форматування, щоб правильно редагувати та форматувати свою відповідь. Зображення повинно відображатися тут, це не гіперпосилання.
Морс,

26

Середнє гармонічне є еквівалентом середнього арифметичного для зворотних величин, які слід усереднювати за середнім арифметичним. Точніше, із середнім гармонічним, ви перетворюєте всі свої числа у форму "усереднюється" (приймаючи зворотне), ви берете їх середнє арифметичне, а потім перетворюєте результат назад у вихідне подання (знову приймаючи зворотне).

Точність і відкликання є "природно" взаємними, оскільки їх чисельник однаковий, а знаменники різні. Дроби більш розумні для усереднення за середнім арифметичним, коли вони мають однаковий знаменник.

Для більшої інтуїції припустимо, що ми підтримуємо постійно кількість справжніх позитивних елементів. Потім, беручи середнє гармонічне значення точності та відкликання, ви неявно берете середнє арифметичне хибнопозитивних та фальшивих негативних результатів. Це в основному означає, що помилкові спрацьовування та помилкові негативні результати однаково важливі для вас, коли справжні позитивні результати залишаються незмінними. Якщо алгоритм містить N більше хибнопозитивних елементів, але N менше помилково негативних (маючи однакові справжні позитиви), F-міра залишається незмінною.

Іншими словами, F-міра підходить, коли:

  1. помилки однаково погані, незалежно від того, чи є вони помилковими або хибними негативними
  2. кількість помилок вимірюється відносно кількості справжніх позитивів
  3. справжні негативи нецікаві

Пункт 1 може бути і не відповідає дійсності, існують зважені варіанти F-міри, які можна використовувати, якщо це припущення не відповідає дійсності. Точка 2 є цілком природною, оскільки ми можемо очікувати масштабування результатів, якщо просто класифікувати все більше і більше балів. Відносні числа повинні залишатися незмінними.

Пункт 3 досить цікавий. У багатьох додатках негативи є природним за замовчуванням, і навіть важко або довільно вказати, що насправді вважається справжнім негативом. Наприклад, пожежна сигналізація має справжню негативну подію щосекунди, кожну наносекунду, кожен раз, коли минув час Планка і т. Д. Навіть у клаптику каменю ці справжні негативні події виявлення пожежі є постійно.

Або у випадку виявлення обличчя, більшість випадків ви " правильно не повертаєте " мільярди можливих областей на зображенні, але це нецікаво. Цікаві випадки , коли ви дійсно повертають пропоноване виявлення або коли ви повинні повернути його.

На відміну від цього, точність класифікації однаково дбає про справжні позитивні та істинні негативні сторони і є більш придатною, якщо загальна кількість зразків (подій класифікації) є чітко визначеною та досить малою.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.