Що робити, коли деякі моменти часу сильно перекосили відповіді, а деякі - у повторному дослідженні заходів?


12

Як правило, коли стикаються з безперервними, але перекошеними заходами результатів у поздовжньому дизайні (скажімо, з одним ефектом між суб'єктами), загальним підходом є перетворення результату на нормальність. Якщо ситуація екстремальна, наприклад, із усіченими спостереженнями, можна пофантазувати і скористатися моделлю кривої зростання Тобіта чи якоюсь такою.

Але я в збитку, коли бачу результати, які зазвичай розподіляються в певні моменти часу, а потім сильно перекошуються в інших; трансформація може підключити один витік, а пружинити інший. Що ви можете запропонувати в такому випадку? Чи існують «непараметричні» версії моделей зі змішаними ефектами, про які я не знаю?

Примітка. Прикладним прикладом можуть бути результати перевірки знань до / після публікації серії навчальних втручань. Оцінки починаються нормально, але згодом кластеризуються у верхній частині шкали.


6
Приклад цікавий тим, що трапляється постійно. Існують відомі трансформації, які мають справу з цим, такі як "складені" силові перетворення Тукі. Вони вносять незначні зміни в середину шкали, однак виліковують косості з обох кінців. Я виявив, що складені коріння та колоди працюють дуже добре для стандартизованих порівнянь до / після тестування.
whuber

Дякую, Вубер . Я розгляну складний підхід до трансформації.
Brenden Dufault

1
Для визначення та прикладів, Бренден, див. Stats.stackexchange.com/a/10979 . Щоб дізнатися про їх використання, дивіться останні кілька глав у книзі EDA « Тукі» .
whuber

2
Додана примітка - пам’ятайте, що припущення зроблені щодо залишків моделі, а не власне змінних.
Пітер Флом - Відновити Моніку

Відповіді:


1

Якщо припустити, що проблема виникає у ваших залишків (оскільки розподіл змінної результату сам по собі зазвичай не є проблемою), я б хотів розслідувати причину проблеми, а не намагатися "виправити" її шляхом перетворення чи застосування непараметрична модель.

Якщо так здається, що існує тенденція (наприклад, прогресивно стає більш-менш нормальною), або явна перерва між тим, коли вона переходить від нормальної до не нормальної, то це говорить про "зміну режиму" в якійсь формі ваші дані (тобто механізм генерації даних змінюється з часом) або якийсь тип відсутньої проблеми змінної.

Якщо це так, що очевидної картини немає (наприклад, періоди часу 1 і 3 виглядають нормально, а періоди часу 2 і 4 не відповідають), я б дуже уважно переглядав проблему цілісності даних.

Простий спосіб перевірити, чи є у вас зміна режиму, - це оцінити модель, використовуючи лише "звичайні" періоди часу, а потім переоцінити за допомогою інших часових періодів і побачити, яка різниця виникає. Складніший підхід - використовувати модель латентного класу, можливо, з часом як супутню змінну.

Що стосується Вашого запитання щодо непараметричних моделей змішаних ефектів, то це наче залежить від того, що ви маєте на увазі під непараметричними. Якщо ви маєте на увазі моделі, які не передбачають числово-залежної змінної, то таких моделей дуже багато (наприклад, у LIMDEP їх досить багато). Також майте на увазі, що порушення припущення про нормальність, ймовірно, буде проблематичним лише з точки зору висновку, якщо розмір вибірки невеликий. Одним із способів дослідження цього було б спробувати різні трансформації, обговорені в інших коментарях та відповідях, і побачити, чи може це вплинути на ваші висновки.


+1 Дякую, Тіме. Я вдячний вашим пропозиціям щодо моделей прихованого класу та LIMDEP. Ці підходи все більше приваблюють мене, коли я починаю дізнаватися більше про них.
Brenden Dufault

0

Існують перетворення Box-Cox, які піднімають змінну до лямбда потужності, коли лямбда включена в оцінку параметрів моделі. Я не знайомий зі складеною трансформацією потужності Тукі, тому я не знаю, чи ми говоримо про одне і те ж. Для того, щоб оцінити лямбда, вам потрібно кілька балів. Чи хочете ви встановити інший розподіл у кожній часовій точці, де розподіл визначено для набору суб'єктів, які приймають тест у кожний момент часу? Навіть якщо це так, якщо ви знаєте, що деякі часові точки повинні мати однаковий розподіл, можливо, ви хочете об'єднати їх в один пристрій.

Інший підхід, який не є параметричним і не передбачає перетворень на нормальність, полягає у застосуванні завантажувальної стрічки в кожній часовій точці або в кожному об'єднаному наборі часових точок.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.