Що таке оптимальний поріг F1? Як його обчислити?


13

Я використовував функцію h2o.glm () в R, яка дає таблицю непередбачених результатів разом з іншою статистикою. Таблиця на випадок надзвичайних ситуацій очолюється " Перехресна вкладка на основі оптимального порогового значення F1 "

Вікіпедія визначає показник F1 або F оцінка як гармонійне середнє значення точності та відкликання. Але чи Precision and Recall не знайдені лише тоді, коли результат передбачуваних значень логістичної регресії (наприклад) перетворюється на двійкові за допомогою відсічення.

Тепер відсіченням я пам’ятаю, який зв’язок між оцінкою F1 та оптимальним порогом. Як обчислюється оптимальний поріг? Як обчислюється оптимальний поріг F1?

Вибачте, якщо я щось пропустив, я новачок тут.

Відповіді:


22

Я фактично написав свою першу роботу з машинного навчання на цю тему. У ній ми визначили, що коли ваш класифікатор видає калібровані ймовірності (як це слід для логістичної регресії), оптимальний поріг становить приблизно 1/2 1/2 показника F1, якого він досягає. Це дає вам певну інтуїцію. Оптимальний поріг ніколи не буде більше .5 Якщо ваш F1 дорівнює 0,5, а поріг - 5, тоді слід розраховувати на покращення F1 шляхом зниження порогу. З іншого боку, якщо F1 був .5, а поріг був .1, ви, ймовірно, повинні збільшити поріг для покращення F1.

Документ з усіма подробицями та обговоренням того, чому F1 може бути, а може бути, і не хорошим заходом для оптимізації (як в одиночному, так і в багатоядерному випадку), можна знайти тут:

https://arxiv.org/abs/1402.1892

Вибачте, що мені знадобилося 9 місяців, щоб ця посада була мені відома. Сподіваємось, що ви все-таки знайдете інформацію корисною!


1
Чи може F1 бути> 1? Якщо у вас 90% A, і 10% ~ A, я думаю, ви хочете порогу> .5.
gung - Відновіть Моніку

1
Привіт @gung. Ні, за визначенням F1 = 2 * p * r / (p + r) і, як і всі заходи F-beta, має діапазон [0,1]. Дисбаланс класу не змінює діапазон балів F1. Для деяких додатків, можливо, ви хочете, щоб прогнози були зроблені з порогом вище 5. Зокрема, це траплятиметься завжди, коли ви вважаєте, що помилкові позитиви гірші за хибні негативи. Але такий поріг не оптимізував бал F1. Щоб зрозуміти чому, оцінка F1 була розроблена в контексті пошуку інформації. У цих налаштуваннях позитивний клас зустрічається рідко, і зазвичай помилкові позитиви не такі затратні, як хибні негативи.
Zachary Chase Lipton

@ZacharyChaseLipton Припустимо, у мене є набір даних, розділений на поїзд / вал / тест. Для класифікатора, який видає ймовірність, я вибрав би оптимальний поріг F1 на наборі валідації, досліджуючи поріг, який дає найкращий F1. Це здається розумним, оскільки вибір порогу схожий на вибір найкращої моделі. Це правильно робити?
пір

Більше того, припустимо, у мене є класифікатор, який не виводить ймовірності (як SVM). Як би ви оптимізували F1 на наборі перевірки тоді?
пір

Я зробив це в питанні: stats.stackexchange.com/questions/283931 / ...
бенкет
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.