У мене є набір даних, в якому частота подій дуже низька (40 000 з ). Я застосовую логістичну регресію щодо цього. Я мав дискусію з кимось, де з'ясувалося, що логістична регресія не дасть хорошої матриці плутанини на таких низьких даних про рівень подій. Але через бізнес-проблеми та спосіб її визначення я не можу збільшити кількість подій з 40 000 до більшої кількості, хоча я погоджуюся з тим, що можу видалити деяку нерівноцінну сукупність.
Скажіть, будь ласка, свої думки щодо цього, зокрема:
- Чи залежить точність логістичної регресії від швидкості подій чи є якась мінімальна кількість подій, яка рекомендується?
- Чи існує якась спеціальна методика для даних про низьку кількість подій?
- Чи було б видалення мого нерівноцінного населення добре для точності моєї моделі?
Я новачок у статистичному моделюванні, тому вибачте моє незнання і прошу вирішити будь-які пов'язані з цим проблеми, про які я міг би подумати.
Спасибі,