Це питання є загальним і довготривалим, але будь ласка, майте на увазі мене.
У своєму застосуванні у мене є безліч наборів даних, кожен складається з ~ 20000 точок даних з ~ 50 особливостями та однією залежною бінарною змінною. Я намагаюся моделювати набори даних за допомогою регульованої логістичної регресії (пакет R glmnet )
У рамках мого аналізу я створив залишкові сюжети наступним чином. Для кожної функції я сортую точки даних відповідно до значення цієї функції, поділяю точки на 100 відра, а потім обчислюю середнє значення виходу та середнє значення прогнозування у кожному відрізку. Я викладаю ці відмінності.
Ось приклад залишкової ділянки:
У наведеному сюжеті ознака має діапазон [0,1] (з великою концентрацією при 1). Як бачите, коли значення функції низьке, модель, схоже, є упередженою щодо завищення ймовірності 1-виходу. Наприклад, у самому лівому відрі модель завищує ймовірність приблизно на 9%.
Озброївшись цією інформацією, я хотів би прямо змінити визначення функції, щоб приблизно виправити це зміщення. Зміни, такі як заміна
або
Як я можу це зробити? Я шукаю загальну методологію, щоб людина могла швидко прокручувати всі ~ 50 сюжетів і вносити зміни, робити це для всіх наборів даних і часто повторювати, щоб постійно оновлювати моделі, оскільки дані розвиваються з часом.
Як загальне питання, чи це навіть правильний підхід? Пошуки Google щодо "залишкового аналізу логістичної регресії" не дають багато результатів за допомогою хороших практичних порад. Вони, здається, зафіксовані на відповіді на запитання: "Чи підходить ця модель?" і запропонувати різні тести, як Хосмер-Лемешоу, щоб відповісти. Але мені байдуже, чи гарна моя модель, я хочу знати, як зробити її краще!