Поріг ймовірності класифікації


49

У мене взагалі питання щодо класифікації. Нехай f - класифікатор, який виводить набір ймовірностей, заданих деякими даними D. Зазвичай, можна сказати: добре, якщо P (c | D)> 0,5, ми призначимо клас 1, інакше 0 (нехай це буде двійковий класифікація).

Моє запитання полягає в тому, що якщо я дізнаюся, що якщо я класифікую як 1 також ймовірності, більші за: тобто 0,2, класифікатор працює краще. Чи правомірно використовувати цей новий поріг під час класифікації?

Я б інтерпретував необхідність нижчої обмеженої класифікації в контексті даних, що випромінюють менший сигнал; все ще важлива для проблеми класифікації.

Я усвідомлюю, що це один із способів, але якщо це неправильне мислення, то які перетворення даних будуть подібними чином підкреслювати окремі особливості, щоб поріг залишався на рівні 0,5?


8
У вас вже є чудова відповідь, тому дозвольте мені просто сказати це: ваше "нормально" - це не нормально, що повинно бути нормальним. Я не впевнений, де річ "поріг у 0,5" стала стандартною, і я знаю, що є якесь інакше відмінне програмне забезпечення, яке заохочує цю ідею, але загалом це дуже погана практика.
Метью Друрі

1
@MatthewDrury: якщо, звичайно, бал не є добре відкаліброваною відповідною задньою ймовірністю не зробити важливої ​​помилки (останній піклується про різні витрати на помилкову класифікацію).
cbeleites підтримує Моніку

Відповіді:


68

Про це Френк Харрелл написав у своєму блозі: Класифікація проти передбачення , з яким я щиро погоджуюся.

По суті, його аргумент полягає в тому, що статистична складова вашої вправи закінчується, коли ви виводите ймовірність для кожного класу вашого нового зразка. Вибір порогу, за який ви будете класифікувати нове спостереження як 1 проти 0, вже не є частиною статистики . Це частина компонента рішення . І тут вам потрібен імовірнісний вихід вашої моделі - але також міркування типу:

  • Які наслідки прийняти рішення щодо нового спостереження як класу 1 проти 0? Тоді я можу розіслати дешеву маркетингову пошту на всі 1? Або я застосовую інвазивне лікування раку з великими побічними ефектами?
  • Які наслідки трактувати "справжній" 0 як 1, і навпаки? Я відмічу клієнта? Піддавати когось зайвого медичного лікування?
  • Мої "класи" справді дискретні? Або насправді існує континуум (наприклад, артеріальний тиск), де клінічні пороги насправді є лише когнітивними ярликами? Якщо так, то наскільки далеко за поріг випадок, який я зараз «класифікую»?
  • Або низька, але позитивна ймовірність бути класом 1 насправді означає "отримати більше даних", "виконати ще один тест"?

Отже, щоб відповісти на ваше запитання: поговоріть з кінцевим споживачем вашої класифікації та отримайте відповіді на вищезазначені питання. Або поясніть свій імовірнісний результат їй чи йому, і нехай вона чи він пройдуть наступні кроки.


1
Дуже дякую за цю проникливу відповідь. Далі я вивчу саму проблему - я впевнений, що я можу якось перетворити цю властивість у частину статистичного навчання.
sdgaw erzswer

Вау, хочете, я можу щось додати до цього, але нічого не отримав, видатна відповідь!
the_SJC

4
Дуже гарна відповідь: питання на місці! Однак моя професія, яка стоїть на базі заявки, незалежно від того, чи можна знайти поріг прийняття рішення, називається статистикою чи ні - це повністю підпадає під мої професійні обов'язки ... І для мене це частина моделі так само, як "попередня обробка" є частиною модель - також з тієї причини, що всі ці рішення потрібно охопити в процесі перевірки.
cbeleites підтримує Моніку

11

Відповідь Стефана чудова. Це принципово залежить від того, що ви хочете зробити з класифікатором.

Просто додамо кілька прикладів.

Спосіб пошуку найкращого порогу - це визначення цільової функції. Для двійкової класифікації це може бути точність або F1-бал, наприклад. Залежно від того, який ви вибрали, найкращий поріг буде різним. Для F1-балів тут є цікава відповідь: Що таке оптимальний поріг F1? Як його обчислити? . Але сказати "Я хочу використовувати F1-бал" - це те, де ти фактично робиш вибір. Добрий цей вибір чи ні, залежить від кінцевої мети.

Ще один спосіб побачити це зіткнення між розвідкою та експлуатацією (остання точка Стефана): Багатозброєний бандит є прикладом такої проблеми: вам доведеться мати справу з двома суперечливими цілями отримання інформації та вибору найкращого бандита . Одна із байесівських стратегій - обирати кожного бандита випадковим чином, імовірно, що він найкращий. Це не зовсім класифікація, а аналогічна робота з вихідними ймовірностями.

Якщо класифікатор - це лише одна цегла в алгоритмі прийняття рішень, то найкращий поріг буде залежати від кінцевої мети алгоритму. Це слід оцінювати і налаштовувати з огляду на об'єктивну функцію всього процесу.


Дякую за ще одну чудову відповідь. Якщо я правильно розумію, якщо я маю справу з останнім кроком в трубопроводі, цілком правомірно безпосередньо оптимізувати поріг.
sdgaw erzswer

@sdgawerzswer: так. І а) переконайтеся, що ви оптимізували відповідь на правильне запитання, і b) переконайтесь, що ви прийняли рішення (і визначення порогу) разом з рештою моделі.
cbeleites підтримує Моніку

3

Можливо, існує деяке значення при розгляді того, як обчислюється ймовірність. У наші дні Класифікатори використовують вектор зміщення, який множиться на матрицю (лінійна алгебра). Поки у векторі є якісь ненульові значення, ймовірність (добуток вектора та матриці) ніколи не буде дорівнює 0.

Це спричиняє плутанину в реальному світі людей, які не брали лінійну алгебру. Їх турбує той факт, що є оцінки ймовірності для предметів, які, на їхню думку, повинні мати 0. Іншими словами, вони плутають статистичний вклад, не приймаючи рішення, засноване на цьому входженні. Як люди, ми могли б сказати, що щось із ймовірністю 0,0002234 те саме, що і 0, у більшості випадків "практичного" використання. У вищих когнітивних наукових дискусіях, можливо, є цікава дискусія про те, чому вектор зміщення робить це, а точніше, чи справедливо це для когнітивних застосувань.


2

Неправильного порогу немає. Вибір порогу залежить від вашої мети у вашому передбаченні, а точніше, чого ви хочете надати перевагу, наприклад, точність проти відкликання (спробуйте скласти графік та виміряти пов'язаний з ним AUC для порівняння різних моделей класифікації на ваш вибір).

Я наводжу вам цей приклад точності проти нагадування, оскільки мій власний проблемний випадок, над яким я працюю зараз, я вибираю свій поріг залежно від мінімальної точності (або позитивного прогнозного значення PPV), я хочу, щоб моя модель була при прогнозуванні, але я не дуже дбають про негативи. Як такий я приймаю поріг, який відповідає бажаній точності, коли я навчився моїй моделі. Точність - це моє обмеження, і нагадую про ефективність моєї моделі, коли я порівнюю з іншими моделями класифікації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.