Яка модель складного набору даних? (сотні часових рядів з великою кількістю вкладених)


9

У мене є досить складний набір даних для аналізу, і я не можу знайти гарне рішення для цього.

Ось річ:

1. необроблені дані - це фактично записи пісень комах. Кожна пісня зроблена з декількох поривів, а кожен сплеск зроблений з підрозділів. Усі особи фіксувались протягом 5 хвилин. Кількість вибухів та їх положення у записі можуть бути дуже різними між окремими особами, а також кількість підрозділів на спуску.

2. У мене є несуча частота (основна частота) кожного підрозділу, і саме це я хочу проаналізувати.

Мої проблеми:

1. Частоти в межах вибуху очевидно не незалежні (хоча це досить стабільно, але частота підрозділу n-1 матиме вплив на підрозділ n).

2. Сплески також не є незалежними під час запису.

3. Вони ще менш незалежні, оскільки частота падає з часом (індивід втомився співати, тому частота пісні стає все нижчою і нижчою). Здається, падіння лінійне.

4. Вкладення = У мене є 3 тиражувані популяції для двох локацій A і B. Отже, у мене A1, A2, A3 & B1, B2, B3.

Що я хотів би зробити:

1. Охарактеризуйте різницю частоти між двома моїми локаціями (тестуйте її статистично)

2. Охарактеризуйте частоту падіння між двома місцями (подивіться, чи швидше вона падає в одному з них)

Як це зробити:

Ну, тому мені потрібна допомога: я не знаю. Здається, мій випадок поєднує проблеми, які зазвичай не бачать разом. Я читав про змішані моделі, про GAM, про ARIMA, випадкові та фіксовані ефекти, але не можу бути впевнений у найкращому способі це зробити. Коли я графікую його (хоча частота ~ номер підрозділу n ), різниця між двома місцями дуже чітка. Я також повинен враховувати інші змінні, наприклад температуру (робить частоту вищою) тощо.

Я думав про:

  • Вбудовані особи в репліку їх походять, а репліку вкладають у місцеположення (індивідуальне / копія / місцезнаходження).

  • Використовуйте випадковий ефект "вибуху", тому я враховую мінливість у межах кожного вибуху.

  • Використовуйте фіксований ефект "вибуху в записі", щоб виміряти падіння частоти (сподіваючись, що це насправді лінійно).

Це було б правильно?

Чи є особливий тип моделі, який я міг би використовувати для подібного сценарію?


Ласкаво просимо на цей сайт, Джо. Не потрібно входити у свій пост, ваше ім’я завжди з’явиться під вашим граватаром :)
chl

Ок, і дякую! Це дуже приємний веб-сайт, дуже добре зроблений.
Джо

"Вбудовування особи в репліку, з якої вони є, і вкладення репліка в межах місця (індивідуальне / копія / місцеположення)" звучить як гарна ідея, якщо порівнювати його з вкладеними формами. Як виглядає ЛОС з ваших шести підгруп?
о.

1
Дуже дякую за відповіді, дуже оцінив це. Ну, це зайняло у мене багато часу, але мені вдалося проаналізувати цей (кривавий) набір даних. Я був занадто амбітний, думаю, бажаючи моделювати все одночасно. Тому я розділив роботу на кілька моделей, для кожної проблеми (середня різниця частот, збільшення частоти тощо). Висновок: іноді краще розділити роботу!
Джо

Відповіді:


2

Це лише декілька загальних пропозицій, які можуть вам бути корисними, більше дорожньою картою, ніж рецептом.

  • Мій інстинкт полягав би в тому, щоб побудувати байєсівську ієрархічну модель, тому що вона піддається ітераційній розробці моделі - я не думаю, що ви знайдете існуючу модель, у якій є всі дзвіночки, за якими ви хочете. Але це ускладнює тестування гіпотез, я не знаю, наскільки необхідне тестування гіпотез для вас.
  • Здається, у вас в голові трохи неформальної моделі щодо того, як поводяться комахи; ви говорите такі речі, як "втомитися", і знаєте, що температура робить частоту вище, імовірно, тому, що тварина має більше енергії. Здається, у вас на увазі трохи генеративної моделі щодо того, як комахи створюють свої пісні.
  • Проблема здається занадто складною для моделювання "в один кадр". Я думаю, вам доведеться щось скласти. Я б почав з деяких "сильних припущень простого" - тобто відкинути більшу частину складності набору даних, з планом додати його ще пізніше, як тільки ви отримаєте просту модель, яка працює.

Отже, для початку я б зробив щось на кшталт попередньої обробки частот підрозділу на основі повної передачі на щось на зразок пари (середня частота, тренд частоти) - зробіть це з OLS, і просто моделюйте середню частоту та тренд вибух, а не самі підрозділи. Або ви могли б зробити (середній, тренд, # підрозділів), якщо кількість субодиниць стосується того, як набридає комаха. Потім побудуйте байєсівську ієрархічну модель, де розподіл середнього значення і тенденції вибуху визначається середнім рівнем, тенденцією запису, а це в свою чергу визначається середньою, тенденцією місця розташування.

Потім додайте температуру як фактор для середнього / тренд запису.

Ця проста модель повинна дозволяти вам бачити середній і тренд окремих спалахів під час запису відповідно до температури та місця розташування. Спробуйте домогтися цього.

Тоді я б спробував оцінити різницю між середньою частотою зривів (або трендом, поділяючи на спокійний час між сплесками), додавши це як змінну, визначену місцем розташування та записом. Наступним кроком є ​​модель AR середньої серійної передачі в межах запису.

Враховуючи деякі пріорі та деякі дуже сильні припущення щодо природи сплеску (що вся інформація задана середнім та трендним), ця основна модель скаже вам:

  • як середня частота вибуху різного розташування за місцем розташування та темп за темп
  • як відрізняється місцеположення трендового потоку за місцем розташування та темп за темп
  • як відрізняється зовнішнє вибухове тренд за місцем розташування та темп за темп

Після того, як у вас щось подібне спрацює, можливо, настав час моделювати самі підрозділи та викинути оригінальну оцінку OLS. Я б роздивився дані в цей момент, щоб отримати уявлення про те, яка модель часового ряду може відповідати, і сформулювати параметри моделі часових рядів, а не (середній, тренд) пар.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.