У мене 100 000 спостережень (9 фіктивних змінних показників) з 1000 позитивних. Логістична регресія повинна спрацьовувати нормально в цьому випадку, але ймовірність відсічення мене спантеличує.
У загальній літературі ми обираємо 50% відсікання для прогнозування 1 і 0. Я не можу цього зробити, оскільки моя модель дає максимальне значення ~ 1%. Тож поріг може бути 0,007 або десь навколо нього.
Я розумію ROC
криві і як область під кривою може допомогти мені вибрати між двома моделями LR для одного і того ж набору даних. Однак ROC не допомагає мені вибрати оптимальну ймовірність відсічення, яку можна використовувати для тестування моделі на даних, що не мають вибірки.
Чи слід просто використовувати значення обрізання, яке мінімізує значення misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Додано -> На такий низький показник подій, на мій рівень неправильної класифікації впливає величезна кількість помилкових позитивних результатів. Хоча швидкість над усіма виглядає хорошою, оскільки загальний розмір Всесвіту також великий, але моя модель не повинна мати стільки помилкових позитивних результатів (оскільки це модель повернення інвестицій). Коефіцієнт 5/10 значущий.