Який найкращий спосіб пояснити, чому , наприклад, не є хорошим показником порівняно з F1?
Який найкращий спосіб пояснити, чому , наприклад, не є хорошим показником порівняно з F1?
Відповіді:
Справа не в тому, що є поганою мірою, це лише те, що саме по собі отримане число не означає нічого значимого. Ви на правильному шляху, проте ... те, що ми шукаємо, - це комбіноване, середнє значення для двох показників ефективності, оскільки нам не хочеться обирати між ними.
Нагадаємо, що точність та відкликання визначаються як:
Оскільки вони обоє мають різні знаменники, додавання їх разом дає щось подібне: ... що не особливо корисно.
Давайте повернемось до їх додавання разом і зробимо налаштування: помножте їх на щоб вони залишилися у правильній шкалі, . Це взяття знайомого середнього з них.
Отже, у нас є дві величини, які мають однаковий чисельник, але різні знаменники, і ми хотіли б взяти середнє значення з них. Що ми робимо? Ну ми могли їх перевернути, взяти їх обернену. Потім ви могли їх додати разом. Так вони "правою стороною вгору", ви знову приймаєте зворотну.
Цей процес інвертування, а потім інвертування знову перетворює "регулярне" середнє в гармонійне середнє. Так буває, що середнє значення гармонійної точності та відкликання є статистикою F1. Середня гармоніка зазвичай використовується замість стандартної середньої арифметичної при роботі зі ставками, як ми робимо тут.
Врешті-решт, статистика F1 - це лише середня точність та відкликання, і ви використовуєте її, тому що не хочете вибирати ту чи іншу для оцінки продуктивності моделі.
Коротка відповідь: ви не очікуєте, що підсумовування двох відсотків, які мають два різних знаменника, матиме якесь особливе значення. Отже, підхід прийняти середній показник, такий як F1, F2 або F0.5. Останні зберігають принаймні властивість відсотка. А як же їх значення?
Краса точності та нагадування як окремих заходів полягає в їх простоті інтерпретації та в тому, що їх можна легко протистояти бізнес-цілям моделі. Точність вимірює відсоток true positives
випадків, віднесених positive
до моделі. Нагадаємо, вимірює відсоток true positives
знайденої моделлю з усіх true
випадків. Для багатьох проблем вам доведеться вибрати оптимізацію точності або відкликання.
Будь-який середній показник втрачає вищевказану інтерпретацію і зводиться до того, який мір вам найбільше надається. F1 означає, що ви або не знаєте, чи віддаєте перевагу Recall чи Precision, або надаєте однакову вагу кожному з них. Якщо ви вважаєте Recall важливішим за Precision, то вам слід також виділити йому більшу вагу в середньому розрахунку (наприклад, F2), і навпаки (наприклад, F0.5).
Додавання двох - погана міра. Ви отримаєте бал щонайменше 1, якщо позначите все як позитивне, оскільки це 100% нагадування за визначенням. І ви отримаєте трохи точного удару поверх цього. Середнє геометричне значення, яке використовується у F1, підкреслює слабку ланку, оскільки є мультиплікативною; ви повинні принаймні зробити все добре з обома точністю і нагадати, щоб отримати гідну оцінку F1.
Оцінка F1 особливо цінна у випадку сильно асиметричної ймовірності.
Розглянемо наступний приклад: ми перевіряємо на рідкісну, але небезпечну хворобу. Припустимо, що в місті з 1.000.000 людей заражено лише 100 людей.
Тест А виявляє всі ці 100 позитивів. Однак вона також має 50% хибнопозитивних показників: помилково показує, що хворіють ще 500 000 людей.
Тим часом тест В пропускає 10% заражених, але дає лише 1.000 хибнопозитивних (0,1% хибнопозитивних показників)
Давайте підрахуємо бали. Для тесту А точність буде ефективно 0; нагадування буде рівно 1. Для тесту B точність все ще буде досить невеликою, приблизно 0,01. Нагадаємо, буде дорівнює 0,9.
Якщо ми наївно підсумовуємо або беремо середнє арифметичне точності та згадуємо, це дасть 1 (0,5) для тесту А та 0,91 (0,455) для тесту В. Отже, тест А здасться трохи кращим.
Однак якщо поглянути з практичної точки зору, тест А марний: якщо людина тестується позитивно, його шанс по-справжньому захворіти - 1 на 50 000! Тест В має більш практичне значення: ви можете завезти до лікарні 1100 людей і уважно спостерігати за ними. Це точно відображається балом F1: для тесту А це буде близько 0,0002, для тесту B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, що все ще досить погано, але приблизно в 50 разів краще.
Ця відповідність між оцінкою та практичним значенням - це те, що робить рахунок F1 цінним.
Взагалі, максимізація геометричного середнього значення підкреслює значення, подібні. Наприклад, візьміть дві моделі: перша має (точність, відкликання) = (0,8, 0,8), а друга має (точність, нагадування) = (0,6, 1,0). Використовуючи алгебраїчне середнє, обидві моделі були б рівнозначними. Використовуючи геометричне середнє, перша модель є кращою, оскільки вона не торгує точністю для виклику.