Чому логістична регресія добре відкалібрована і як зруйнувати її калібрування?


9

У наукових документах про калібрування ймовірностей вони порівнюють логістичну регресію з іншими методами та зазначають, що випадковий ліс менш калібрований, ніж логістична регресія.

Чому логістична регресія добре відкалібрована? Як можна зруйнувати калібрування логістичної регресії (не те, що хотілося б - просто як вправу)?

Відповіді:


4

Хоча це питання і його перша відповідь, як видається, зосереджені на теоретичних питаннях калібрування моделі логістичної регресії, питання про:

Як можна зруйнувати калібрування логістичної регресії ...?

заслуговує певної уваги щодо реальних програм для майбутніх читачів цієї сторінки. Не слід забувати, що модель логістичної регресії повинна бути чітко визначена і що це питання може бути особливо клопітним для логістичної регресії.

По-перше, якщо коефіцієнти журналу членства в класі не будуть лінійно пов'язані з передбачувачами, включеними в модель, він не буде добре відкалібрований. У розділі 10 Гаррелла про двійкову логістичну регресію присвячено приблизно 20 сторінок "Оцінці придатності моделі", щоб можна було скористатися "асимптотичною неупередженістю оцінювача максимальної ймовірності", як на практиці заявляв @whuber.

По-друге, специфікація моделі є особливою проблемою при логістичній регресії, оскільки вона має властивий опущений змінний зміщення, що може дивувати тих, хто має передумови у звичайній лінійній регресії. Як зазначено на цій сторінці:

Пропущені змінні зміщуватимуть коефіцієнти включених змінних, навіть якщо опущені змінні не співвідносяться із включеними змінними.

На цій сторінці також є корисне пояснення, чому слід очікувати такої поведінки, з теоретичним поясненням для споріднених, аналітично простежуваних, пробітних моделей. Тому, якщо ви не знаєте, що ви включили всі прогнози, пов’язані з членством у класі, ви можете наштовхнутися на небезпеку неправильного визначення та поганого калібрування на практиці.

Що стосується специфікації моделі, то цілком можливо, що на основі деревних методів, таких як випадковий ліс, які не передбачають лінійності щодо цілого діапазону значень прогнозів і, по суті, забезпечують можливість пошуку та включення взаємодії між предикторами, виявляться кращими - калібрована модель на практиці, ніж модель логістичної регресії, яка недостатньо враховує умови взаємодії або нелінійність. Щодо зміщення пропущеної змінної, мені незрозуміло, чи будь-який метод оцінювання ймовірностей членства в класі може адекватно вирішити це питання.


5

Логістична регресія - метод класифікації, який в основному вивчає функцію ймовірності πθ(х) над вхідним простором, встановлюючи параметри θ. Якщо передбачувані ймовірності засвоюються з відповідною функцією втрат, ніж логістична регресія має потенціал навчитися неупередженій оцінці ймовірностей бінарних подій, коли вона має достатню ємність (функції введення).

Втрата журналу дозволяє таку об'єктивну оцінку. Розглянемо той факт, що функція втрати журналу - це просто негативна ймовірність журналу розподілу БернулліzБер(p). Максимальна оцінка ймовірності дляp є неупередженим з урахуванням набору спостережень для змінної z. У разі класифікації на деякому вхідному просторіХ, можна собі уявити один розподіл Бернуллі для всіх пунктів Х. Найчастіше у вас буде лише 1 спостереженняуi за розподілом Бернуллі, який знаходиться за адресою хi. Спільно застосовуючи максимальну оцінку ймовірності для всіх спостережуваних розподілів БернулліуiБер(π(хi)) буде застосовувати кілька обмежень до πθ. Оскільки всі ці обмеження призводять до неупереджених оцінок, і поки функціяπθ є достатньо гнучким, щоб відповідати справжній основній функції ймовірності π, тоді процедура навчання є послідовною і буде збігатися до оптимальної моделі, оскільки ви отримаєте більше даних. Таким чином, обмеження ємності моделі (наприклад, менше функцій) може перешкоджати калібруванню логістичної регресії, збільшуючи відстань між найкращою моделлю, що вивчається, та справжньою моделлю.

Використання неправильної моделі спостереження з логістичною регресією призведе до каліброваної ймовірності. Моделювання бінарних подій з нормальним розподілом є недоцільним і не повинно використовуватися в поєднанні з логістичною регресією. Функція втрат, що відповідає нормальній моделі спостереження розподілу, є Помилка середнього квадрату. Таким чином, використання втрат MSE напевно перешкоджатиме його калібруванню.


2
Ретельно називаючи логістичну регресію методом класифікації на цьому сайті! Дякую за відповідь - здається, ви маєте на увазі, що мета втрати журналу є причиною калібрування (якщо припустити, що модель є достатньо гнучкою)?
користувач0

1
Наступні дії - ви кажете, що калібрування вимагає неупередженої оцінки ймовірності - значить, пеналізація руйнує калібрування?
користувач0

«LogisticRegression повертає добре калібровані прогнози за замовчуванням, оскільки безпосередньо оптимізує втрати журналу» - scikit-learn.org/stable/modules/calibration.html
cortax

За визначенням, пеналізація або регуляризація - це ухил, що часто намагається зменшити дисперсію оцінювача. Масова регуляризація може домінувати в частині даних цільової функції і, безумовно, руйнувати калібрування.
кортакс

2
Цитата scikit-learn про "оптимізує втрату журналу" не є ефективним поясненням, оскільки немає необхідного зв'язку між цим та неупередженим. Якщо я не помиляюся, правильну відповідь на це питання потрібен буде для виклику асимптотических незміщеної від максимальної правдоподібності оцінки , як правило , використовується в логістичних процедурах регресії.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.