Моделювання поздовжніх даних, коли вплив часу змінюється у функціональній формі між особинами


32

Контекст :

Уявіть, що ви провели поздовжнє дослідження, яке вимірювало залежну змінну (DV) один раз на тиждень протягом 20 тижнів на 200 учасників. Хоча мене цікавлять загалом, типові відеореєстратори, до яких я думаю, включають ефективність роботи після найму чи різні заходи щодо благополуччя після втручання клінічної психології.

Я знаю, що багаторівневе моделювання може бути використане для моделювання взаємозв'язку між часом та DV. Ви також можете дозволити коефіцієнти (наприклад, перехоплення, нахили тощо) змінюватись між особами та оцінювати конкретні значення для учасників. Але що робити, коли при візуальному огляді даних ви виявите, що взаємозв'язок між часом та DV є будь-яким із наступних:

  • різні за функціональною формою (можливо, деякі лінійні, а інші - експоненціальні, а інші мають розрив)
  • відрізняється відхиленням помилок (деякі люди є більш мінливими від одного моменту до іншого)

Запитання :

  • Який би був хороший спосіб наблизитись до моделювання таких даних?
  • Зокрема, які підходи хороші для виявлення різних типів відносин та категоризації осіб щодо їх типу?
  • Які реалізації існують в R для таких аналізів?
  • Чи є посилання на те, як це зробити: підручник чи фактична програма?

Відповіді:


20

Я б запропонував переглянути наступні три напрямки:

  • поздовжнє кластеризація : це без нагляду, але ви використовуєте підхід k-означає, покладаючись на критерій Калинського для оцінки якості розподілу (пакет kml та посилання, включені в онлайн-довідку); в основному, це не допоможе визначити конкретну форму для індивідуального часового курсу, а просто відокремить однорідний профіль еволюції
  • якась крива прихованого зростання, що враховує гетероседастичність: я найкраще здогадуюсь, щоб переглянути широкі посилання на програмне забезпечення MPlus , особливо на FAQ та розсилку. Я також чув про мультипликативну гетероседастичну модель випадкових ефектів (спробуйте покрутитися навколо цих ключових слів). Ці документи ( 1 , 2 ) мені здаються цікавими, але я не переглядав їх детально. Я оновлюсь посиланнями на нейропсихологічну оцінку ще раз до свого кабінету.
  • функціональний PCA ( пакет fpca ), але, можливо, варто переглянути функціональний аналіз даних

Інші довідки (тільки що переглядаються на льоту):


1
Спасибі. У мене виникла ідея використовувати процедуру кластеризації. Я думаю, що викликом було б адекватно зафіксувати та зважити можливі особливості кривої індивідуального рівня теоретично осмисленим чином. Я перегляну, як це працює в кмл.
Джеромі Англім

1
Ну, він працює досить добре, хоча інтерфейс жахливий (і я знаю хлопця, який його будує :) - Я використав його два місяці тому для розділення клінічних груп на основі індивідуальних профілів вимірювань розвитку (Brunet-Lézine).
chl

1
Ось ще одна основна довідка для FDA: psych.mcgill.ca/misc/fda
Майк Лоуренс

1
Я знайшов це вступ до посилання FDA від Ramsay (2008), особливо доступного gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Джеромі Англім

8

Я рекомендую ознайомитись з декількома статтями Хепінг Чжан, використовуючи адаптивні сплайни для моделювання поздовжніх даних:

Крім того, див. Сторінку MASAL щодо програмного забезпечення, що включає пакет R.


6

Мені здається, що Моделі мішанки росту можуть мати потенціал, який дозволяє вам вивчити відхилення від помилок. ( PDF тут). (Я не впевнений, що таке мультиплікативні гетеросептичні моделі, але я обов'язково повинен їх перевірити).

Моделі траєкторії на основі латентної групи стали дуже популярними останнім часом у кримінології. Але багато людей просто сприймають як належне, що групи насправді існують, і деякі проникливі дослідження вказали, що ви знайдете групи навіть у випадкових даних. Також слід зазначити, що груповий модельний підхід Nagin не дозволяє оцінити свою помилку (і, чесно кажучи, я ніколи не бачив моделі, яка виглядала б як щось розрив).

Хоча це було б складно з 20 часовими точками, для дослідницьких цілей створення простих евристик для виявлення шаблонів може бути корисним (наприклад, завжди низький або завжди високий коефіцієнт варіації). Я маю на увазі блискітки на графіках електронних таблиць або паралельних координат, але я сумніваюся, що вони були б корисними (я, чесно кажучи, ніколи не бачив паралельної ділянки координат, яка дуже просвічує).

Удачі


@chl, немає проблем, дякую за всі перераховані тут ресурси.
Енді Ш

Хороший момент щодо прихованих груп. Я бачив декілька застосувань прихованого аналізу класів та кластерного аналізу, де, здається, це просто створення неперервної категорії змінних int таких низьких і високих ( jeromyanglim.blogspot.com/2009/09/… ). Однак у мене є деякі поздовжні дані індивідуального рівня, які візуально виглядають так, що вони походять від категорично розрізнених процесів генерування даних (наприклад, завжди високі, завжди низькі, поступове збільшення, низьке, а потім різке збільшення тощо) і в межах категорій спостерігається більш безперервна зміна параметрів.
Джеромі Англім

@ Джеромі, я не думаю, що робота, яку я цитував, не відштовхує людей від використання таких методів для виявлення прихованих груп. Я б сказав, що суть роботи полягає в тому, що ви не можете використовувати подібні методи виключно для висновку про існування груп, оскільки ви завжди знайдете групи, навіть у випадкових даних. Справа в більш суб'єктивній інтерпретації, чи є ті групи, які ви знайдете, справжніми або просто артефактами методу. Ви можете визначити деякі логічні теорії, що генерують такі процеси, а потім побачити, чи визначені групи підходять до цих теорій.
Енді Ш

5

Через чотири роки після того, як я задав це питання, я дізнався кілька речей, тому, можливо, я повинен додати кілька ідей.

Я думаю, що баєсовське ієрархічне моделювання забезпечує гнучкий підхід до цієї проблеми.

Програмне забезпечення : Інструменти, такі як jags, stan, WinBugs тощо, потенційно поєднуються з відповідними пакетами інтерфейсів R (наприклад, rjags, rstan), полегшують зазначення таких моделей.

Залежно від помилки людини: Байєсові моделі дозволяють легко вказати дисперсію помилки всередині людини як випадковий фактор, який змінюється між людьми.

yi=1,...,nj=1,...J

yijN(μi,σi2)
μi=γ
γN(μγ,σγ2)
σiGamma(α,β)

Thus the standard deviation of each person might be modelled as a gamma distribution. I have found this to be an important parameter in many psychological domains where people vary in how much they vary over time.

Latent classes of curves: I have not explored this idea as much yet, but it is relatively straight forward to specify two or more possible data generating functions for each individual and then let the Bayesian model choose the most likely model for a given individual. Thus, you would typically get posterior probabilities for each individual regarding which functional form describes the individuals data.

As a sketch of an idea for a model, you could have something like the following:

yijN(μij,σ2)
μij=γiλij(1)+(1γi)λij(2)
λij(1)=θ1i(1)+θ2i(1)exp(θ3i(1))
λij(2)=θ1i(2)+θ2i(2)xij+θ3i(2)xij2
γi=Bernoulli(πi)

Where xij is time and λij(1) represents expected values for a three parameter exponential model and λij(2) represents expected values for a quadratic model. πi represents the probability that model will choose λij(1).


I've also been moving to the Bayesian framework, and have been reading on using Gaussian Processes for time series analysis of uncertain function forms. Still unclear how it can be applied to the case of hierarchical data (see my unanswered query here: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ)
Mike Lawrence

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.