Додавання лінійного предиктора регресії зменшує R квадрат


10

Мій набір даних ( ) має залежну змінну (DV), п'ять незалежних змінних "базової лінії" (P1, P2, P3, P4, P5) та одну незалежну змінну, що цікавить (Q).N10,000

Я запустив лінійні регресії OLS для наступних двох моделей:

DV ~ 1 + P1 + P2 + P3 + P4 + P5
                                  -> R-squared = 0.125

DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q
                                  -> R-squared = 0.124

Тобто додавання предиктора Q зменшило кількість дисперсії, поясненої в лінійній моделі. Наскільки я розумію, цього не повинно відбуватися .

Щоб було зрозуміло, це значення R-квадрата, а не скориговані значення R-квадрата.

Я перевірив значення R-квадрат з допомогою Jasp і мови Python statsmodels .

Чи є якась причина, щоб я міг бачити це явище? Можливо, щось стосується методу OLS?


1
числові питання? Цифри досить близькі один до одного ...

@ user2137591 Це я думаю, але я не маю уявлення, як це перевірити. Абсолютна різниця значень R-квадрата становить 0,000513569, що є невеликим, але не таким малим.
Кай

1
Я сподіваюся, що ви знаєте лінійну алгебру: якщо є матрицею проектування вищезазначеного, чи можете ви обчислити , де - матриця транспозиції та - визначальна матриця? XdetXTXTdet
Кларнетист

8
Пропущені значення автоматично знижуються?
generic_user

1
0.000513569 - це дуже невелика кількість: це 0,41 відсотка змін. Це, можливо, числове питання. Що кларнетист намагається сказати, це те, що, можливо, ваша матриця дизайну має поганий номер стану, а при інвертуванні вона є нестабільною чисельністю ...

Відповіді:


25

Можливо, у вас відсутні значення Q, які автоматично випадають? Це матиме наслідки для вибірки, що робить дві регресії не порівнянними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.