Хоча це питання і його перша відповідь, як видається, зосереджені на теоретичних питаннях калібрування моделі логістичної регресії, питання про:
Як можна зруйнувати калібрування логістичної регресії ...?
заслуговує певної уваги щодо реальних програм для майбутніх читачів цієї сторінки. Не слід забувати, що модель логістичної регресії повинна бути чітко визначена і що це питання може бути особливо клопітним для логістичної регресії.
По-перше, якщо коефіцієнти журналу членства в класі не будуть лінійно пов'язані з передбачувачами, включеними в модель, він не буде добре відкалібрований. У розділі 10 Гаррелла про двійкову логістичну регресію присвячено приблизно 20 сторінок "Оцінці придатності моделі", щоб можна було скористатися "асимптотичною неупередженістю оцінювача максимальної ймовірності", як на практиці заявляв @whuber.
По-друге, специфікація моделі є особливою проблемою при логістичній регресії, оскільки вона має властивий опущений змінний зміщення, що може дивувати тих, хто має передумови у звичайній лінійній регресії. Як зазначено на цій сторінці:
Пропущені змінні зміщуватимуть коефіцієнти включених змінних, навіть якщо опущені змінні не співвідносяться із включеними змінними.
На цій сторінці також є корисне пояснення, чому слід очікувати такої поведінки, з теоретичним поясненням для споріднених, аналітично простежуваних, пробітних моделей. Тому, якщо ви не знаєте, що ви включили всі прогнози, пов’язані з членством у класі, ви можете наштовхнутися на небезпеку неправильного визначення та поганого калібрування на практиці.
Що стосується специфікації моделі, то цілком можливо, що на основі деревних методів, таких як випадковий ліс, які не передбачають лінійності щодо цілого діапазону значень прогнозів і, по суті, забезпечують можливість пошуку та включення взаємодії між предикторами, виявляться кращими - калібрована модель на практиці, ніж модель логістичної регресії, яка недостатньо враховує умови взаємодії або нелінійність. Щодо зміщення пропущеної змінної, мені незрозуміло, чи будь-який метод оцінювання ймовірностей членства в класі може адекватно вирішити це питання.