У мене є логістична регресійна модель (підходить через glmnet в R з регулюванням пружної сітки), і я хотів би максимально розрізнити між справжніми позитивними та помилковими позитивами. Для цього було придумано наступну процедуру:
- Підходить стандартна модель логістичної регресії
- Використовуючи поріг прогнозування як 0,5, визначте всі позитивні прогнози
- Призначте вагу 1 для позитивно прогнозованих спостережень, 0 - для всіх інших
- Підходить зважена логістична модель регресії
Які були б вади при такому підході? Який би був правильний спосіб продовжити цю проблему?
Причина бажати максимальної різниці між кількістю справжніх позитивних та хибних негативів пояснюється дизайном моєї програми. В рамках класового проекту я будую автономного учасника інтернет-ринку - якщо моя модель передбачає, що він може щось купити і продати пізніше за більш високою ціною, він подає заявку. Я хотів би дотримуватися логістичної регресії та виводити бінарні результати (виграти, програти) на основі фіксованих витрат та приросту одиничної ціни (я отримую або втрачаю однакову суму на кожній транзакції). Хибний позитив шкодить мені, бо це означає, що я щось купую і не можу продати це за більш високу ціну. Однак хибний негатив не шкодить мені (лише з точки зору можливих витрат), оскільки це просто означає, якби я не купував, але якби мав, я би заробив гроші. Аналогічно
Я погоджуюсь, що граничне значення 0,5 є абсолютно довільним, і коли я оптимізував модель з кроку 1 на порозі прогнозування, який дає найбільшу різницю між істинними / хибними позитивами, виявляється ближче до 0,4. Я думаю, це пов’язано з перекошеним характером моїх даних - співвідношення між негативом та позитивом становить приблизно 1: 3.
Зараз я виконую такі кроки:
- Розділити дані між навчанням / тестом
- Підійміть модель на тренуванні, зробіть прогнози в тестовому наборі та обчисліть різницю між істинними / хибними позитивами
- Встановіть модель повністю, зробіть прогнози в тестовому наборі та обчисліть різницю між істинними / хибними позитивами
Різниця між істинними / хибними позитивами менша на кроці №3, ніж на кроці №2, незважаючи на те, що навчальний набір є підмножиною повного набору. Оскільки мені байдуже, чи є в моделі №3 більше справжніх негативів та менш помилкових негативів, чи можна щось зробити, не змінюючи функцію ймовірності?