Чи дозволено включати час як предиктор у змішані моделі?


10

Я завжди вважав, що час не повинен використовуватися як провісник у регресії (включаючи ігор), тому що тоді просто "описати" сам тренд. Якщо метою дослідження є знайти такі параметри навколишнього середовища, як температура тощо, які пояснюють різницю, скажімо так, активності тварини, то мені цікаво, яким чином час може бути корисний? як проксі для вимірюваних параметрів?

Деякі тенденції у часі щодо даних про діяльність морських морських свиней можна побачити тут: -> Як вирішити прогалини у часових рядах при проведенні GAMM?

моя проблема полягає в тому, що коли я включаю час у свою модель (вимірюється в юліанські дні), то 90% всіх інших параметрів стають незначними (тс-усадка плавніша від mgcv виганяє їх). Якщо я залишу тайм-аут, то деякі з них значні ...

Питання: чи дозволено час прогнозування (можливо, навіть потрібен?) Чи це зіпсує мій аналіз?

заздалегідь дякую

Відповіді:


12

Час дозволений; чи потрібна вона буде залежати від того, що ви намагаєтеся моделювати? Проблема у вас полягає в тому, що у вас є коваріати, які разом здаються, що відповідають тенденціям даних, що час може зробити так само добре, але використовуючи менший ступінь свободи - отже, вони випадають замість Часу.

Якщо інтерес полягає в моделюванні системи, взаємозв'язку між відповіддю та коваріантами з часом, а не моделюють, як реакція змінюється з часом, тоді не включайте Час як коваріат. Якщо мета полягає в моделюванні зміни середнього рівня відповіді, включайте Час, але не включайте коваріат. З того, що ви говорите, виявиться, що ви хочете перше, а не останнє і не повинно включати час у вашу модель. (Але врахуйте додаткову інформацію нижче.)

Однак є пара застережень. Щоб теорія дотримувалася, залишки повинні бути iid (або ідентифікатором, якщо ви зменшите припущення про незалежність, використовуючи кореляційну структуру). Якщо ви моделюєте відповідь як функцію коваріатів, і вони не адекватно моделюють будь-яку тенденцію в даних, то у залишків буде тенденція, яка порушує теоретичні припущення, якщо тільки відповідна структура кореляції не зможе впоратися з цією тенденцією.

І навпаки, якщо ви моделюєте тенденцію лише у відповіді (включаючи Час), можуть бути систематичні зміни в залишках (про пристосований тренд), які не пояснюються тенденцією (Time), і це також може порушити припущення для залишків. У таких випадках вам може знадобитися включити інші коваріати, щоб вивести залишки в iid

Чому це питання? Добре, коли ви тестуєте, чи є, наприклад, компонент тренду, чи важливий вплив коваріатів, використовувана теорія припустить, що залишки є iid. Якщо вони не ідентифікуються, припущення не будуть виконані, і p-значення будуть упередженими.

Сенс всього цього полягає в тому, що вам потрібно моделювати всі різні компоненти даних таким чином, щоб залишки виявились ідентичними для теорії, яку ви використовуєте, щоб перевірити, чи належні компоненти, щоб бути достовірними.

Як приклад, розглянемо сезонні дані, і ми хочемо підігнати модель, яка описує довгострокові зміни в даних, тенденцію. Якщо ми будемо моделювати лише тенденцію, а не сезонні циклічні зміни, ми не зможемо перевірити, чи є підходящий тренд значним, оскільки залишки не будуть ідентичними. Для таких даних нам потрібно би пристосувати модель як із сезонним компонентом, так і з трендом компонент та нульова модель, яка містила лише сезонний компонент. Потім ми б порівняли дві моделі, використовуючи узагальнений тест коефіцієнта ймовірності для оцінки значущості тенденції. Це робиться за anova()допомогою $lmeкомпонентів двох моделей, встановлених з використанням gamm().


Шановний Гевін, дякую за дуже корисні коментарі. Я сподіваюся, що я можу допомогти вам також незабаром;) Коли я спробую GLRT з anova, він говорить мені, що "об'єкт" виправлено "не знайдено" :(
Jens

1
@Jens дзвінок повинен бути anova(mod1$lme, mod2$lme). Якщо ви підходите до не-гауссової моделі, то це може не спрацювати, оскільки немає істинної імовірності журналу в методах PQL, тож імовірність квазиімовірності в імені PQL. Це одна з причин використовувати gamm4 , але тоді вам потрібно зробити щось щодо кореляційної структури, оскільки lme4 їх не дозволяє.
Гевін Сімпсон
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.