Як правильно ставитись до декількох точок даних по кожному предмету


10

Зараз я сперечаюся з кимось про те, як правильно поводитися з даними за допомогою декількох вимірювань для кожного предмета. У цьому випадку дані збиралися для кожного предмета протягом короткого часу за різних умов у кожному предметі. Усі вимірювання складаються з однакової величини, просто кратної.

Один з варіантів зараз - це просто групувати дані за умовами, а не дбати про те, щоб кілька точок даних походили від однієї теми. Однак точки даних від кожного предмета, ймовірно, не є повністю незалежними.

Інша альтернатива - спочатку взяти середнє значення всіх вимірювань для кожної умови з кожного випробуваного, а потім порівняти засоби. Однак це, мабуть, позначиться на значущості, оскільки в остаточному аналізі не враховується, що засоби мають меншу помилку.

Як можна правильно проаналізувати такі дані? Це якось опікується в SPSS? В принципі, слід обчислити похибку при обчисленні середнього значення і, ніж врахувати це в остаточному аналізі, але я не здогадуюсь, що SPSS якось робить цей розрахунок за моєю спиною.


1
Чи є така схема повторних заходів такою, що кожен предмет працює в усіх або багатьох умовах? Або це просто незалежні групи, або заходи, розробка яких передбачає кожен предмет в одній умові?
Джон

У цій конструкції кожен предмет працює в будь-яких умовах. Однак є деякі моменти даних, які потрібно відхилити, оскільки суб'єкти не змогли виконати завдання. Малоймовірно, що суб'єкт не зможе виконати всі підзадачі за одну умову (існує приблизно 40 повторень на одну умову), тому, швидше за все, кожен суб'єкт матиме точки даних для всіх умов.
LiKao

Відповіді:


9

Було б порушення незалежності "групувати дані за умовами, а не байдуже, що кілька точок даних походять від одного предмета". Так що це не йде. Один із підходів полягає в тому, щоб "взяти середнє значення всіх вимірювань для кожного стану з кожного випробуваного, а потім порівняти засоби". Ви могли б зробити це так, ви не порушили б незалежність, але ви втрачаєте деяку інформацію в сукупності до предметно-рівневих засобів.

Начебто це звучить як змішана конструкція із умовами між предметами та кількома часовими періодами, виміряними в межах предметів. Однак тут виникає питання, чому ви збирали дані в декілька часових моментів? Чи очікується, що вплив часу чи прогресування змінної за часом буде різним між умовами? Якщо на будь-яке з цих питань відповідь "так", то, враховуючи структуру даних, я би сподівався, що те, що вас цікавить, - це змішана ANOVA. Змішана ANOVA поділить предметну дисперсію зі SSTotal "за спиною" як би. Але чи допоможе цей розподіл ваших між тестами перевірки умов, залежить від кількох інших факторів.

У будь-якому випадку в SPSS / PASW 18 Проаналізуйте -> Загальна лінійна модель -> Повторні заходи. У вас буде один рядок для кожної теми та один стовпець для кожної точки часу, а також один їх ідентифікатор стану. Ідентифікатор умови перейде в розділ «між», і повторні заходи будуть обережні, коли ви визначаєте коефіцієнт повторної міри.


Гаразд, це те, що я подумав. Кілька точок даних за умову збираються з двох причин. Одне полягає в тому, що дані повинні бути достовірнішими. Інша причина полягає в тому, що деякі точки даних повинні бути відкинуті (суб'єкти не дотримувались інструкцій завжди правильно). Умови цілком є ​​всередині предметів, тому у нас взагалі немає змішаного бажання. На жаль, повторний захід не викликає сумнівів, оскільки в кожному з предметів у нас близько 40 повторень на умову. Однак велика кількість повторень означає, що ми втрачаємо багато інформації при використанні середнього.
LiKao

Тоді я рекомендую відповідь Джона. Вірогідна краща змішана модель. Це може моделювати як середнє, так і мінливе для кожного предмета та поважати вкладення. Одним із питань такого аналізу є те, що «правильні» ступені свободи є незрозумілими, і, отже, пороги статистичної значущості також є неясними. На відміну від наданого Джона коду, я б рекомендував встановити випадковий нахил для вашого ефекту від стану (різні суб'єкти показують різні ефекти). Я бачив деякі симуляції, які дозволяють зробити це, якщо цього не зробити, може підвищити рівень помилок типу I.
russellpierce

4

Дизайн повторних заходів є традиційним способом вирішення цього питання, як зазначає drknexus. Виконуючи такий аналіз, ви повинні об'єднати один бал / умову / предмет. Він чутливий до порушень припущень щодо сферичності та інших питань. Однак більш сучасна методика полягає у використанні багаторівневого моделювання або лінійних змішаних ефектів. За допомогою цієї методики ви не агрегуєте дані. Існує декілька методів лікування, але я не знаю найкращого основного підручника. Baayen (2008) Глава 7 - це добре. Pinheiro & Bates (2000) дуже добре, але, звучивши речі, дотримуйтесь їхніх порад у вступі та читайте біти, рекомендовані для початківців.

Якщо ви хочете просто отримати результат стилю ANOVA, якщо припустити, що всі ваші дані містяться у довгому форматі (один рядок / точка даних) і у вас є стовпці із зазначенням теми, відповіді (y) та змінної умови (x), ви можете спробувати дивлячись на щось подібне в R (переконайтеся, що встановлений пакет lme4).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

Звичайно, у вас може бути набагато більше змінних стовпців умов, можливо, взаємодіючих. Тоді ви можете змінити команду lmer на щось на кшталт ...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(BTW, я вважаю, що не агрегування повторних заходів з метою підвищення потужності - формальна помилка. Хтось пам'ятає ім'я?)


Я вважаю, що помилковість неспроможності зібрати та використовувати df з числа відповідей, а не кількості суб'єктів - це порушення незалежності. Крім того, (я думаю), можливо, можна було б зробити висновок на рівні окремих відповідей предмета для фіксованого набору предметів.
russellpierce
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.