У мене виникає питання, яке, на мою думку, буде досить основним для багатьох користувачів.
Я використовую лінійні регресійні моделі для (i) дослідження взаємозв'язку декількох пояснювальних змінних та моєї змінної відповіді та (ii) передбачення моєї змінної відповіді за допомогою пояснювальних змінних.
Здається, одна конкретна пояснювальна змінна X значно впливає на мій змінний відповідь. Для того щоб перевірити додану цінність цієї пояснювальної змінної X з метою позапробних прогнозів моєї змінної відповіді, я використав дві моделі: модель (a), яка використовувала всі пояснювальні змінні, і модель (b), яка використовувала всі змінні за винятком змінної X. Для обох моделей я викладаю виключно показники поза вибіркою. Виявляється, обидві моделі працюють майже однаково як хороші. Іншими словами, додавання пояснювальної змінної X не покращує прогнозовані поза вибіркою прогнози. Зауважте, що я також використовував модель (a), тобто модель з усіма пояснювальними змінними, щоб знайти, що пояснювальна змінна X значно впливає на мій змінний відгуку.
Моє запитання зараз: як зрозуміти цю знахідку? Відвертий висновок полягає в тому, що, хоча здається, що змінна X суттєво впливає на мій змінний відповідь, використовуючи інфекційні моделі, вона не покращує прогнозовані поза вибіркою. Однак у мене є проблеми з подальшим поясненням цієї знахідки. Як це можливо, і які деякі пояснення цього висновку?
Спасибі заздалегідь!
Додаткова інформація: "Значно впливаючи" я маю на увазі, що 0 не включається до найвищого інтервалу задньої щільності 95% оцінювання параметрів (я використовую байєсівський підхід). У періодичному періоді це приблизно відповідає значенню p нижче 0,05. Я використовую лише дифузні (неінформативні) пріори для всіх параметрів моїх моделей. Мої дані мають поздовжню структуру і містять загалом близько 7000 спостережень. Для позапробних прогнозів я використав 90% даних, щоб відповідати моїм моделям і 10% даних, щоб оцінити моделі за допомогою декількох реплікацій. Тобто, я кілька разів виконував тест поїздів і, зрештою, повідомляв про показники середньої ефективності.