Поздовжні дані: часовий ряд, повторні заходи чи щось інше?


10

Простий англійською мовою: у мене є множинна регресія або ANOVA модель, але змінна відповідь для кожної людини є криволінійною функцією часу.

  • Як я можу визначити, яка з правої змінної відповідає правовим змінам кривих та вертикальних зміщень кривих?
  • Це проблема часових рядів, проблема повторних заходів чи щось інше цілком?
  • Які найкращі практики аналізу таких даних (бажано R, але я відкритий для використання іншого програмного забезпечення)?

Якщо точніше сказати : Скажімо, у мене є модель але y i j k - це фактично ряд даних, бали, зібрані від одного і того ж k у багатьох часових точках , які записувались як числова змінна. Нанесення даних показує, що для кожного окремогоуijк=β0+β1хi+β2хj+β3хiхj+ϵкуijкктуijкт- квадратична або циклічна функція часу, вертикальне зміщення, форма або частота (у циклічному випадку) може значно залежати від коваріатів. Коваріати не змінюються з часом, тобто людина має постійну масу тіла або групу лікування протягом тривалості періоду збору даних.

Поки я спробував такі Rпідходи:

  1. Манова

    Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); 
    

    ... де YTматриця, стовпчики якої є часовими точками, 10 з них у цьому прикладі, але набагато більше в реальних даних.

    Проблема: це трактує час як фактор, але моменти часу точно не відповідають кожній особі. Крім того, їх багато відносно розміру вибірки, тому модель стає насиченою. Здається, форма змінної відповіді з часом ігнорується.

  2. Змішана модель (як у Pinheiro та Bates, моделі змішаних ефектів у S та S-Plus )

    lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, 
        random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
    

    ... де IDє фактором, який групує дані за окремими особами. У цьому прикладі реакція є циклічною у часі, але натомість можуть бути квадратичні терміни чи інші функції часу.

    Проблема: Я не впевнений, чи потрібен кожен часовий термін (особливо для квадратичних термінів) та які саме впливають на те, які коваріати.

    • Чи stepAIC()хороший метод їх вибору?
    • Якщо він видалить залежний від часу термін, чи він також видалить його з randomаргументу?
    • Що робити, якщо я також використовую функцію автокореляції (таку як corEXP()), яка приймає формулу в correlationаргументі - чи слід зробити цю формулу corEXP()такою самою, як та, що вона є, randomабо просто ~1|ID?
    • nlmeПакет рідко згадуються в контексті часових рядів поза Пінєйро і Бейтса ... це не вважаються добре підходять до цієї проблеми?
  3. Встановлення квадратичної або тригонометричної моделі для кожної людини, а потім використання кожного коефіцієнта як змінної відповіді для множинної регресії або ANOVA.

    Проблема: Необхідно кілька виправлень порівняння. Не можу придумати жодних інших проблем, що змушує мене підозріло ставитись до чогось.

  4. Як раніше було запропоновано на цьому веб-сайті ( який термін регресії часових рядів має більше ніж один предиктор? ), Існують моделі ARIMAX та функції передачі / динамічна регресія .

    Проблема: Моделі на основі ARMA припускають дискретні часи, чи не так? Що стосується динамічної регресії, то я вперше почув про неї сьогодні, але перш ніж заглибитися в ще один новий метод, який, можливо, не зможе зрештою, я подумав, що було б доцільно звернутися до людей, які це робили раніше.


5
@ f1r3br4і Може допомогти, якщо ви додасте детальну інформацію про конкретні ваші дані? Тобто, скільки випадків вимірювали в скільки часових моментів? Чи справи в різних умовах? чи щось інше?
Джеромі Англім

Ви втратили свій рахунок? Якщо так, зареєструйте нову, можливо, за допомогою своєї адреси Gmail, щоб я міг легко знайти, що об’єднати.

1
@ f-tussel та @ jeromy-anglim: Дані - це різні неінвазивні вимірювання, зібрані від лабораторних тварин протягом природного періоду життя, часто поєднані зі статичною інформацією, такою як генотип, стать або тип харчування, яким вони годуються. Під "багатьма" пунктами я маю на увазі від 20 до декількох сотень. Я намагаюся аналізувати не один набір даних, а навчитися аналізувати тип даних, що стає дуже поширеним у моїй групі. Чи рекомендуються змішані моделі з факторами в межах групи лише для менших розмірів вибірки?
f1r3br4nd

Відповіді:


5

Як сказав Джеромі Англім, це допоможе дізнатись кількість точок часу для кожної людини; як ви сказали "багато", я б ризикнув, що функціональний аналіз може бути життєздатною альтернативою. Можливо, ви захочете перевірити FDA пакет і переглянути книгу Рамзая та Сільвермена .


Функціональний аналіз здається перспективним у довгостроковій перспективі, але, схоже, буде досить крива навчання, перш ніж я впевнений, що я не отримую безглуздих чи упереджених результатів. Тож, поки я швидкість цього nlmeстосуюся , чи більш привітні підходи, засновані на основі (пункти 2 та 3 в ОП), принаймні дійсні для використання на даних?
f1r3br4nd

2

Оскільки спочатку ставив це питання, я дійшов висновку, що моделі змішаного ефекту з предметами як випадковим блокуючим фактором є практичним рішенням цієї проблеми, тобто варіантом №2 в моєму початковому дописі. Якщо для randomаргументу lmeвстановлено значення ~1|ID(де IDідентифікуються спостереження, що надходять від одного і того ж суб'єкта тестування), тоді встановлюється випадкова модель перехоплення. Якщо він встановлений, ~TIME|IDтоді встановлюється випадкова модель нахилу та перехоплення. Будь-яка правостороння формула, що містить змінні, які змінюються в межах однієї особи, може бути розміщена між ~і |ID, але надмірно складними формулами призведе до насиченої моделі та / або різних числових помилок. Тому можна використовувати тест коефіцієнта ймовірності (anova(myModel, update(myModel,random=~TIME|ID))) для порівняння випадкової моделі перехоплення з випадковим нахилом та моделлю перехоплення або інших кандидатних моделей випадкових ефектів. Якщо різниця у підгонці не суттєва, дотримуйтесь більш просту модель. Мені було надмірно вникати у випадкові триггерні функції в моєму початковому пості.

Інше питання, яке я порушив, - це питання вибору моделі. Схоже, людям не подобається вибір моделей будь-якого типу, але ніхто не має практичних альтернатив. Якщо ви сліпо вірите досліднику, який зібрав дані про те, що пояснювальні змінні є, а не актуальними, ви часто будете сліпо приймати їх неперевірені припущення. Якщо ви будете враховувати всі можливі шматочки інформації, ви часто опинитесь насиченою моделлю. Якщо ви довільно обираєте конкретну модель та змінні, оскільки вони легкі, ви знову приймете неперевірені припущення, на цей раз свої.

Отже, підсумовуючи, для повторних заходів це lmeмоделі з наступною обрізкою через MASS:::stepAICабо MuMIn:::dredgeта / або nlme:::anova.lmeдо тих пір, і якщо хтось не має кращого уявлення.

Я залишу цю відповідь на деякий час, перш ніж приймати її, щоб побачити, чи є у когось спростування. Дякуємо за ваш час, і якщо ви це читаєте, тому що у вас є те саме запитання, яке у мене є, удачі та ласкаво просимо на напівзвірну територію.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.