Значні прогнози стають малозначущими при багаторазовій логістичній регресії


11

Коли я аналізую свої змінні у двох окремих (універсальних) моделях логістичної регресії, я отримую наступне:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

але коли я ввожу їх до єдиної множинної логістичної регресійної моделі, я отримую:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Обидва прогнози дихотомічні (категоричні). Я перевірив на наявність мультиколінеарності.

Я не впевнений, чи надав мені достатньо інформації, але не можу зрозуміти, чому предиктор 1 перейшов від значущого до несуттєвого та чому коефіцієнт шансів настільки відрізняється в моделі множинної регресії. Хтось може надати базове пояснення того, що відбувається?


2
мультиваріант зазвичай вказує на кілька залежних змінних - ви мали на увазі кілька предикторів, правда? Зазвичай це називається множинною регресією.
Макрос

1
β

ах, добре дякую. Я перевірив діаграму колінеарності за допомогою лінійної регресії на spss і перевірив толерантність та VIF - це правильно?
Енні

Приємний коментар @Macro. Я туманно згадую, як читав про способи виправити це питання про масштаб, але не пам'ятаю, де.
Пітер Флом

1
π2/3

Відповіді:


20

Є кілька причин (жодна з яких конкретно не пов'язана з логістичною регресією, але може мати місце при будь-якій регресії).

  1. Втрата ступенів свободи: намагаючись оцінити більше параметрів із заданого набору даних, ви ефективно запитуєте їх більше, що коштує точності, отже, призводить до зниження t-статистики, отже, більш високих p-значень.
  2. Кореляція регресорів: Ваші регресори можуть бути пов'язані один з одним, ефективно вимірюючи щось подібне. Скажімо, ваша модель logit полягає у поясненні стану ринку праці (працює / не працює) як функції досвіду та віку. Індивідуально обидві змінні позитивно пов'язані зі статусом, оскільки більш досвідченим / старшим (виключаючи дуже старих службовців заради аргументації) працівникам легше знайти роботу, ніж останнім випускникам. Тепер, очевидно, дві змінні тісно пов'язані між собою, оскільки вам потрібно бути старшим, щоб мати більше досвіду. Отже, дві змінні в основному "змагаються" за пояснення стану, що може, особливо в невеликих вибірках, призвести до втрати обох змінних, оскільки жоден з ефектів може бути досить сильним і достатньо точно оцінений під час контролю за іншим, щоб отримати вагомі оцінки. По суті, ви запитуєте: який позитивний ефект має ще один рік досвіду, коли вік підтримується постійним? У вашому наборі даних може бути небагато працівників, які не зможуть відповісти на це запитання, тому ефект буде точно оцінений, що призведе до великих p-значень.

  3. Помилкові моделі: Основа теорії t-статистики / p-значень вимагає оцінити правильно задану модель. Тепер, якщо ви регресуєте лише на одному прогнокторі, велика ймовірність того, що ця універсаріатна модель страждає від упущених змінних зміщень. Отже, всі ставки виключаються щодо того, як поводяться значення p. В основному, ви повинні бути обережними, щоб довіряти їм, коли ваша модель не є правильною.


Дякуємо за вашу ретельну та швидку відповідь. Я спробую спочатку усунути будь-яку мультиколінеарність. Я встановив кореляції між змінними і знайшов деякі, і спробую запустити коефіцієнти інфляції дисперсії, як я чув, що це хороший спосіб перевірити це. Якщо це виявиться просто проблемою свободи, чи можу я щось зробити з цього приводу? Я можу пояснити, що це відбувається, але, здається, це порушує цілісність регресії, якщо значення настільки сильно впаде.
Сем О'Браєн

3
@ SamO'Brien: Зауважте, що якщо ваша мета справді така, про яку ви сказали, це - "спробувати визначити", які незалежні змінні потенційно можуть викликати реакцію ", - ігноруючи деяких лише тому, що вони співвідносяться з іншими, щоб" усунути будь-яку мультиколінеарність " не допоможе досягти цього
Scortchi - Відновіть Моніку

1
Чи можливо мати навпаки, тобто той самий передбачувач, несуттєвий у простому регресії, але значний у множинній регресії?
gkcn

8

Немає конкретної причини, чому цього не повинно статися. Множинна регресія задає інше питання від простої регресії. Зокрема, множинна регресія (в даному випадку множинна логістична регресія) запитує про зв’язок між залежними змінними та незалежними змінними, контролюючи інші незалежні змінні. Проста регресія запитує про зв'язок між залежною змінною та (єдиною) незалежною змінною.

Якщо ви додасте контекст свого дослідження (наприклад, що це за змінні?), Можливо, можна дати більш конкретні відповіді. Крім того, враховуючи, що всі три змінні у вашому випадку є дихотомією, ви можете представити нам дані досить легко ... Для узагальнення цього потрібно лише 8 рядків:

DVЯV1ЯV2СоунтААА10ААБ20

тощо.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.