Значення p-значення змінних логістичної регресійної моделі


9

Тож я працюю з логістичними регресійними моделями у Р. Хоча я ще новачок у статистиці, я відчуваю, що до цього часу я трохи розуміюсь щодо регресійних моделей, але все ще є щось, що мене турбує:

Дивлячись на пов’язане зображення, ви бачите зведені R друку для прикладу створеної нами моделі. Модель намагається передбачити, чи буде електронний лист у наборі даних поновлюватися чи ні (двійкова змінна isRefound) і набір даних містить дві змінні, тісно пов'язані між собою isRefound, а саме - next24і next7daysвони також є двійковими та повідомляють, чи буде натиснуто повідомлення в наступному 24 години / наступні 7 днів з поточної точки в журналах.

Високе значення p повинно вказувати на те, що вплив цієї змінної на прогнозування моделі є досить випадковим, чи не так? Виходячи з цього, я не розумію, чому точність прогнозів моделей опускається нижче 10%, коли ці дві змінні залишаються поза формулою обчислення. Якщо ці змінні виявляють настільки низьку значимість, чому вилучення їх із моделі має такий великий вплив?

З найкращими побажаннями та заздалегідь дякую, Rickyfox

введіть тут опис зображення


Редагувати:

Спочатку я видалив лише next24, що мало би мало впливу, оскільки це кофе досить мало. Як і очікувалося, мало що змінилося - не завантажую картинку для цього.

Видалення наступних днів на день мало великий вплив на модель: AIC 200k вгору, точність до 16% і відкликання до 73%

введіть тут опис зображення


1
Що робити, якщо ви просто маєте isRefound ~ day + next24та опустите всі інші змінні?
smillig

Відповіді:


11

В основному, схоже, у вас виникає проблема мультиколінеарності. Про це є багато матеріалів, починаючи з цього веб-сайту або у вікіпедії.

Коротко кажучи, два прогнози, схоже, справді пов’язані з вашим результатом, але вони, ймовірно, сильно співвідносяться між собою (зауважте, що з більш ніж двома змінними все ж можливе виникнення питань мультиколінеарності без сильних двобічних кореляцій). Це, звичайно, має багато сенсу: всі електронні листи, натиснуті протягом 24 годин, також були натиснуті протягом 7 днів (за визначенням), і більшість електронних листів, ймовірно, зовсім не натискали (не за 24 години і не за 7 днів).

Один із способів, що це показано у представленому вами результаті - через неймовірно великі стандартні помилки / ІС для відповідних коефіцієнтів (судячи з того, що ви використовуєте bigglm і що навіть крихітні коефіцієнти є дуже значущими, здається, що розмір вибірки повинен бути більш ніж достатнім щоб отримати хороші оцінки). Інші речі, які ви можете зробити, щоб виявити проблеми такого типу: Подивіться на попарні кореляції, видаліть лише одну із підозрюваних змінних (як це запропонував @Nick Sabbe), разом перевіряйте значення обох змінних.

Загалом, високі значення p не означають, що ефект малий або випадковий, але лише те, що немає доказів того, що коефіцієнт відрізняється від 0. Він також може бути дуже великим, ви просто не знаєте (або тому, що вибірка розмір занадто малий або через те, що з моделлю є якась інша проблема).


1
Зауважте, що новий вихідний текст, який ви розмістили, говорить про те, що можуть бути задіяні і деякі інші змінні (або що я не бачив ще однієї проблеми), оскільки в іншому випадку ви очікуєте, що SE буде значно нижчим, якщо включена лише одна з двох змінних. .
Гала

Так уже помітили, але дякую. Пізніше я зроблю редагування, щоб повідомити про те, що могло спричинити це, якщо вас зацікавило
демель
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.