Google Trends повертає щотижневі дані, тому мені доведеться знайти спосіб їх об'єднання зі своїми щоденними / щомісячними даними.
Що я зробив досі, це перебити кожну серію на щоденні дані, наприклад:
від:
2013-03-03 - 2013-03-09 37
до:
2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37
Але це додає великої складності моїй проблемі. Я намагався передбачити пошук Google за значеннями останніх 6 місяців або 6 значеннями в місячних даних. Щоденні дані означатимуть роботу за 180 минулими значеннями. (У мене є 10 років даних, тому 120 даних у щомісячних даних / 500+ у даних за тиждень / 3500+ у щоденних даних)
Іншим підходом було б "об'єднання" щоденних даних у дані щотижня / щомісяця. Але з цього процесу виникають деякі питання. Деякі дані можна усереднювати, оскільки їх сума щось являє. Наприклад, кількість опадів, кількість опадів за даний тиждень, буде сумою сум за кожен день, що складає тижні.
У моєму випадку я маю справу з цінами, фінансовими ставками та іншими речами. Щодо цін, у моєму полі звичайно враховувати обмін, який обмінюються, тому дані за тиждень були б середньозваженими. Щодо фінансових ставок, то трохи складніше, деякі формули використовуються для побудови тижневих ставок із денних. Для інших речей я не знаю основних властивостей. Я думаю, що ці властивості важливі, щоб уникнути безглуздих показників (наприклад, середній показник ставок для наречених був би безглуздим).
Отже три питання:
Як для відомих і невідомих властивостей я повинен переходити від щоденних до щотижневих / щомісячних даних?
Я відчуваю, що розбивати дані щотижня / щомісяця на щоденні дані, як я це зробив, є дещо неправильним, оскільки я ввожу кількості, які не мають сенсу в реальному житті. Тож майже те саме питання:
Як для відомих і невідомих властивостей я повинен переходити від даних щотижня / щомісяця до щоденних?
І останнє, але не менш важливе: якщо дано два часові ряди з різними кроками часу, що краще: використання найменшого чи найбільшого часового кроку? Я думаю, що це компроміс між кількістю даних та складністю моделі, але я не бачу жодного сильного аргументу для вибору між цими варіантами.
Редагувати: якщо ви знаєте інструмент (в R Python навіть Excel), щоб зробити це легко, було б дуже вдячно.