Баланс у навчальному наборі
Для логістичних регресійних моделей незбалансовані дані навчання впливають лише на оцінку перехоплення моделі (хоча це, звичайно, перекриває всі передбачувані ймовірності, що в свою чергу компрометує ваші прогнози). На щастя, корекція перехоплення є простою: Якщо ви знаєте або можете здогадатися, справжня пропорція 0 і 1 та знаєте пропорції у навчальному наборі, ви можете застосувати виправлення рідкісних подій до перехоплення. Деталі розміщені в King and Zeng (2001) [ PDF ].
Ці "виправлення рідкісних подій" були розроблені для дослідницьких проектів контрольних випадків, які в основному використовуються в епідеміології, що вибирають випадки, вибираючи фіксовану, зазвичай збалансовану кількість 0 випадків та 1 випадок, а потім потрібно виправити отриманий ухил відбору вибірки. Дійсно, ви можете тренувати класифікатора так само. Виберіть хороший збалансований зразок, а потім виправте перехоплення, щоб врахувати той факт, що ви вибрали залежну змінну, щоб дізнатися більше про рідші класи, ніж випадковий зразок зможе вам сказати.
Робити прогнози
На пов’язану, але чітку тему: Не забувайте, що вам слід розумно порозумітися, щоб робити прогнози. Не завжди найкраще передбачити 1, коли ймовірність моделі більша 0,5. Ще один поріг може бути кращим. З цією метою слід вивчити криві експлуатаційних характеристик приймача (ROC) свого класифікатора, а не лише його прогнозований успіх із порогом ймовірності за замовчуванням.