Чи варто моделювати короткі часові серії?


14

Ось якийсь контекст. Мені цікаво визначити, як дві змінні середовища (температура, рівень поживних речовин) впливають на середнє значення змінної реакції протягом 11-річного періоду. Протягом кожного року є дані з понад 100 тис. Локацій.

Мета - визначити, чи реагувало протягом 11 років середнє значення змінних реакцій на зміни змінних умов навколишнього середовища (наприклад, температура тепла + більше поживних речовин = більша реакція).

На жаль, оскільки відповідь є середньою величиною (не дивлячись на середнє значення, просто регулярні міжрічні зміни змінять сигнал), регресія становитиме 11 точок даних (1 середнє значення на рік) з 2 пояснювальними змінними. Мені навіть лінійну позитивну регресію важко вважати доцільною, враховуючи, що набір даних настільки малий (навіть не відповідає номінальному 40 балів / змінної, якщо зв'язок не є надзвичайно сильним).

Чи правильно я роблю це припущення? Чи може хтось запропонувати будь-які інші думки / перспективи, які мені можуть бути відсутні?

PS: Деякі застереження: Не можна отримати більше даних, не чекаючи додаткових років. Отже, наявні дані - це те, з чим ми справді маємо працювати.


Ви спробували побудувати дані? Я б сказав, що міцність кореляції між вашими змінними середовища та вашою змінною відповіді вплине на відповідь.
rm999

" Протягом кожного року є дані з понад 100 тис. Локацій. " Насправді ви спостерігаєте всі локації або лише середнє значення, засноване на них? Якщо так, то ви можете використовувати для моделей даних на панелі, як запропоновано @crayola в лінійному контексті. Хоча деякі спеціальні екологічні моделі, як згадував @GaBorgulya, можуть вимагати набагато менше інформації для калібрування параметрів, а не оцінки.
Дмитро Челов

Відповіді:


8

Невелика кількість точок даних обмежує, які типи моделей можуть відповідати вашим даним. Однак це не обов'язково означає, що не було б сенсу починати моделювати. Маючи небагато даних, ви зможете виявити асоціації лише в тому випадку, якщо ефекти будуть сильними і розсіяність слабка.

Інше питання, яка модель відповідає вашим даним. Ви використали слово "регресія" в заголовку. Модель повинна певною мірою відображати те, що ви знаєте про це явище. Це здається екологічною обстановкою, тому попередній рік також може бути впливовим.


4

Я бачив екологічні набори даних, які мають менше 11 балів, тому я б сказав, якщо ви дуже обережні, ви можете зробити деякі обмежені висновки зі своїми обмеженими даними.

Ви також можете зробити аналіз потужності, щоб визначити, наскільки малий ефект можна було б виявити, враховуючи параметри експериментальної конструкції.

Можливо, вам також не потрібно буде викидати зайві зміни на рік, якщо ви робите ретельний аналіз


4
Будьте обережні з спостережуваної потужністю: nottinghamtrent.academia.edu/ThomBaguley/Papers/212458 / ...
GaBorgulya

4

Фундаментальне моделювання даних (особливо для часових рядів) передбачає, що ви зібрали дані на достатній достатній частоті, щоб зафіксувати цікаві явища. Найпростіший приклад - синусоїда - якщо ви збираєте дані на частоті n * pi, де n - ціле число, то ви нічого не побачите, окрім нулів, і зовсім пропустите синусоїдальну схему. Існують статті з теорії вибірки, які обговорюють, як часто слід збирати дані.


3

Я не впевнений, що розумію цей біт: "На жаль, оскільки відповідь є середньою величиною (не дивлячись на середню, просто регулярні міжрічні зміни змінять сигнал)"

При ретельному моделюванні, мені здається, ви могли б отримати багато, моделюючи це як дані на панелі. Залежно від просторової сфери ваших даних, можуть бути великі відмінності в температурах, яким піддавалися ваші точки даних протягом будь-якого року. Усереднення всіх цих варіацій здається дорогим.


3

Я б сказав, що обгрунтованість тесту має менший зв’язок із кількістю точок даних і більше стосується обгрунтованості припущення про те, що у вас правильна модель.

Наприклад, регресійний аналіз, який використовується для генерування стандартної кривої, може базуватися лише на 3 стандартах (низький, середній та високий), але результат є високоправним, оскільки є вагомі докази того, що відповідь лінійний між точками.

З іншого боку, навіть регресія з 1000 тисячами даних буде помилковою, якщо неправильна модель буде застосована до даних.

У першому випадку будь-яка різниця між прогнозами моделі та фактичними даними обумовлена ​​випадковою помилкою. У другому випадку деяка різниця між прогнозами моделі та фактичними даними пояснюється ухилом від вибору неправильної моделі.


1

Необхідна кількість спостережень для ідентифікації моделі залежить від відношення сигналу до шуму в даних та форми моделі. Якщо мені дадуть числа, 1,2,3,4,5, я передбачу 6,7,8, .... Ідентифікація моделі Box-Jenkins - це підхід до визначення базового Загального терміна, як тест для " числовий інтелект », який ми даємо дітям. Якщо сигнал сильний, то нам потрібно менше спостережень і навпаки. Якщо спостережувана частота говорить про можливу "сезонну структуру", тоді нам потрібно повторити це явище, наприклад, як мінімум 3 сезони (бажано більше), як правило, для вилучення (визначте це з основної описової статистики (acf / pacf).


-1

Можливо, ви можете спробувати обробити свій часовий ряд як систему лінійного рівняння та вирішити його шляхом усунення Гаусса. Звичайно, у такому випадку ви обмежуєтесь наявними даними, але це єдина ціна, яку вам доведеться платити.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.