Коли ми обчислюємо F-міру з урахуванням точності та відкликання, ми беремо середнє гармонічне значення двох мір замість простого середнього арифметичного.
Яка інтуїтивна причина прийняття гармонічного середнього, а не просте середнє значення?
Коли ми обчислюємо F-міру з урахуванням точності та відкликання, ми беремо середнє гармонічне значення двох мір замість простого середнього арифметичного.
Яка інтуїтивна причина прийняття гармонічного середнього, а не просте середнє значення?
Відповіді:
Тут ми вже маємо кілька розгорнутих відповідей, але я вважав, що додаткова інформація про це була б корисною для деяких хлопців, які хочуть глибше заглибитися (особливо чому F міра).
Відповідно до теорії вимірювання, складова міра повинна відповідати наступним 6 визначенням:
Тоді ми можемо вивести і отримати функцію ефективності:
І зазвичай ми використовуємо не ефективність, а набагато простіший бал F, оскільки :
Тепер, коли ми маємо загальну формулу міри F:
де ми можемо зробити більший висновок щодо відкликання або точності, встановивши бета-версію, оскільки бета-версія визначається наступним чином:
Якщо ми зважуємо вагу, важливішу за точність (усі відповідні вибрані), ми можемо встановити бета-версію як 2 і отримаємо міру F2. І якщо ми робимо реверс і точність ваги вищою за відкликання (якомога більше вибраних елементів релевантні, наприклад, у деяких сценаріях виправлення граматичних помилок, таких як CoNLL ), ми просто встановлюємо бета-версію як 0,5 і отримуємо міру F0,5. І, очевидно, ми можемо встановити бета-версію як 1, щоб отримати в основному використовуваний показник F1 (середнє гармонічне значення точності та відкликання).
Думаю, певною мірою я вже відповів, чому ми не використовуємо середнє арифметичне.
Список літератури:
Щоб пояснити, розглянемо, наприклад, що в середньому становить 30 миль на годину та 40 миль на годину? якщо ви їдете протягом 1 години з кожною швидкістю, середня швидкість за ці 2 години насправді є середнім арифметичним, 35 миль в годину.
Однак якщо ви їдете на однаковій відстані з кожною швидкістю - скажімо, 10 миль - тоді середня швидкість понад 20 миль є середнім гармонічним значенням 30 і 40, приблизно 34,3 милі на годину.
Причина полягає в тому, що для того, щоб середнє значення було дійсним, вам дійсно потрібно, щоб значення були в однакових масштабованих одиницях. Милі на годину потрібно порівнювати за однакову кількість годин; для порівняння однієї і тієї ж кількості миль вам натомість потрібно в середньому годину на милю, що саме означає гармонічне значення.
Точність і відкликання мають і справжні позитиви в чисельнику, і різні знаменники. Осереднювати їх насправді має сенс лише усереднювати їхні взаємні значення, таким чином, гармонічне середнє.
Тому що це карає екстремальні цінності більше.
Розглянемо тривіальний метод (наприклад, завжди повернення класу A). Є нескінченні елементи даних класу B та один елемент класу A:
Precision: 0.0
Recall: 1.0
Якщо взяти середнє арифметичне, воно мало б правильність на 50%. Незважаючи на найгірший можливий результат! З середнім гармонічним значенням F1-міра дорівнює 0.
Arithmetic mean: 0.5
Harmonic mean: 0.0
Іншими словами, щоб мати високий F1, вам обом потрібно мати високу точність і відкликання.
Наведені вище відповіді добре пояснені. Це лише для швидкого ознайомлення, щоб зрозуміти природу середнього арифметичного та середнього гармонічного з графіками. Як видно з графіку, розглядайте вісь X та вісь Y як точність та відкликання, а вісь Z як оцінку F1. Отже, з графіку середнього гармонічного, точність і відкликання повинні сприяти рівномірному зростанню оцінки F1 на відміну від середнього арифметичного.
Це для середнього арифметичного.
Це для гармонійного середнього.
Середнє гармонічне є еквівалентом середнього арифметичного для зворотних величин, які слід усереднювати за середнім арифметичним. Точніше, із середнім гармонічним, ви перетворюєте всі свої числа у форму "усереднюється" (приймаючи зворотне), ви берете їх середнє арифметичне, а потім перетворюєте результат назад у вихідне подання (знову приймаючи зворотне).
Точність і відкликання є "природно" взаємними, оскільки їх чисельник однаковий, а знаменники різні. Дроби більш розумні для усереднення за середнім арифметичним, коли вони мають однаковий знаменник.
Для більшої інтуїції припустимо, що ми підтримуємо постійно кількість справжніх позитивних елементів. Потім, беручи середнє гармонічне значення точності та відкликання, ви неявно берете середнє арифметичне хибнопозитивних та фальшивих негативних результатів. Це в основному означає, що помилкові спрацьовування та помилкові негативні результати однаково важливі для вас, коли справжні позитивні результати залишаються незмінними. Якщо алгоритм містить N більше хибнопозитивних елементів, але N менше помилково негативних (маючи однакові справжні позитиви), F-міра залишається незмінною.
Іншими словами, F-міра підходить, коли:
Пункт 1 може бути і не відповідає дійсності, існують зважені варіанти F-міри, які можна використовувати, якщо це припущення не відповідає дійсності. Точка 2 є цілком природною, оскільки ми можемо очікувати масштабування результатів, якщо просто класифікувати все більше і більше балів. Відносні числа повинні залишатися незмінними.
Пункт 3 досить цікавий. У багатьох додатках негативи є природним за замовчуванням, і навіть важко або довільно вказати, що насправді вважається справжнім негативом. Наприклад, пожежна сигналізація має справжню негативну подію щосекунди, кожну наносекунду, кожен раз, коли минув час Планка і т. Д. Навіть у клаптику каменю ці справжні негативні події виявлення пожежі є постійно.
Або у випадку виявлення обличчя, більшість випадків ви " правильно не повертаєте " мільярди можливих областей на зображенні, але це нецікаво. Цікаві випадки , коли ви дійсно повертають пропоноване виявлення або коли ви повинні повернути його.
На відміну від цього, точність класифікації однаково дбає про справжні позитивні та істинні негативні сторони і є більш придатною, якщо загальна кількість зразків (подій класифікації) є чітко визначеною та досить малою.