Контекст
Це питання використовує R, але стосується загальних статистичних питань.
Я аналізую вплив факторів смертності (% смертності від хвороб та паразитизму) на швидкість зростання популяції молі протягом часу, де популяції личинок відбирали з 12 місць раз на рік протягом 8 років. Дані про темпи приросту населення показують чітку, але нерегулярну циклічну тенденцію в часі.
Залишки простої узагальненої лінійної моделі (темпи зростання ~% захворювання +% паразитизму + рік) демонстрували аналогічно чітку, але нерегулярну циклічну тенденцію з часом. Отже, узагальнені моделі найменших квадратів тієї ж форми також були пристосовані до даних з відповідними кореляційними структурами для вирішення тимчасової автокореляції, наприклад, симетрія сполук, порядок 1 авторегресивного процесу та кореляційні структури середньоквадратичного ковзання.
Усі моделі містили однакові фіксовані ефекти, порівнювались за допомогою AIC та були встановлені REML (щоб дозволити порівняння різних кореляційних структур за AIC). Я використовую пакет Rl nlme та функцію gls.
питання 1
Залишки моделей GLS як і раніше демонструють майже однакові циклічні візерунки, коли їх планують проти часу. Чи завжди такі шаблони залишаться, навіть у моделях, які точно враховують структуру автокореляції?
Я моделював деякі спрощені, але подібні дані в R нижче мого другого питання, яке показує проблему, засновану на моєму теперішньому розумінні методів, необхідних для оцінки тимчасово автокорельованих шаблонів у залишках моделі , які я тепер знаю, що вони неправильні (див. Відповідь).
Питання 2
Я встановив мої дані GLS з усіма можливими правдоподібними кореляційними структурами, але жодна насправді не відповідає кращому рівню, ніж GLM без будь-якої кореляційної структури: лише одна модель GLS є дещо кращою (оцінка AIC = 1,8 нижче), тоді як усі інші мають більш високі значення AIC Однак це лише той випадок, коли всі моделі оснащені REML, а не ML, де моделі GLS явно набагато кращі, але я розумію, що з книг статистики ви повинні використовувати REML лише для порівняння моделей з різними структурами кореляції та однаковими фіксованими ефектами з причин Я не буду тут деталізувати.
Враховуючи чітко часовий автокорельований характер даних, якщо жодна модель не є навіть помірно кращою від простого GLM, який є найбільш підходящим способом вирішити, яку модель використовувати для висновку, припускаючи, що я використовую відповідний метод (я врешті-решт хочу використовувати AIC для порівняння різних змінних комбінацій)?
Q1 «симуляція», вивчаючи залишкові візерунки в моделях з відповідними кореляційними структурами і без них
Створення імітованої змінної відповіді з циклічним ефектом "час" та позитивним лінійним ефектом "x":
time <- 1:50
x <- sample(rep(1:25,each=2),50)
y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1)
y має відображати циклічну тенденцію протягом "часу" із випадковими варіаціями:
plot(time,y)
І позитивний лінійний зв’язок з "x" з випадковим варіантом:
plot(x,y)
Створіть просту модель лінійної добавки "y ~ час + x":
require(nlme)
m1 <- gls(y ~ time + x, method="REML")
Модель відображає чіткі циклічні закономірності у залишках, коли планується проти «часу», як і слід було очікувати:
plot(time, m1$residuals)
І що має бути приємним, явним відсутністю будь-якого шаблону чи тренду у залишках, коли планується проти "х":
plot(x, m1$residuals)
Проста модель "y ~ час + x", яка включає авторегресивну кореляційну структуру порядку 1, повинна відповідати даним набагато краще, ніж попередня модель, завдяки структурі автокореляції при оцінці за допомогою AIC:
m2 <- gls(y ~ time + x, correlation = corAR1(form=~time), method="REML")
AIC(m1,m2)
Однак модель все одно має відображати майже однаково «тимчасово» автокорельовані залишки:
plot(time, m2$residuals)
Дуже дякую за будь-яку пораду.