Тож я працюю з логістичними регресійними моделями у Р. Хоча я ще новачок у статистиці, я відчуваю, що до цього часу я трохи розуміюсь щодо регресійних моделей, але все ще є щось, що мене турбує:
Дивлячись на пов’язане зображення, ви бачите зведені R друку для прикладу створеної нами моделі. Модель намагається передбачити, чи буде електронний лист у наборі даних поновлюватися чи ні (двійкова змінна isRefound
) і набір даних містить дві змінні, тісно пов'язані між собою isRefound
, а саме - next24
і next7days
вони також є двійковими та повідомляють, чи буде натиснуто повідомлення в наступному 24 години / наступні 7 днів з поточної точки в журналах.
Високе значення p повинно вказувати на те, що вплив цієї змінної на прогнозування моделі є досить випадковим, чи не так? Виходячи з цього, я не розумію, чому точність прогнозів моделей опускається нижче 10%, коли ці дві змінні залишаються поза формулою обчислення. Якщо ці змінні виявляють настільки низьку значимість, чому вилучення їх із моделі має такий великий вплив?
З найкращими побажаннями та заздалегідь дякую, Rickyfox
Редагувати:
Спочатку я видалив лише next24, що мало би мало впливу, оскільки це кофе досить мало. Як і очікувалося, мало що змінилося - не завантажую картинку для цього.
Видалення наступних днів на день мало великий вплив на модель: AIC 200k вгору, точність до 16% і відкликання до 73%
isRefound ~ day + next24
та опустите всі інші змінні?