Статистична подібність часових рядів


15

Припустимо, у них є часовий ряд, з якого можна проводити різні вимірювання, такі як період, максимум, мінімум, середній рівень тощо, а потім використовувати їх для створення синусоїди з однаковими атрибутами, чи є якісь статистичні підходи, які можна використати кількісно наскільки тісно відповідають фактичні дані передбачуваній моделі? Кількість точок даних у серії буде від 10 до 50 балів.

Першою моєю думкою було дуже спрощено приписати значення напрямному руху синусоїди, тобто +1 +1 +1 +1 -1 -1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1 +1, зробіть те ж саме з фактичними даними, а потім якось кількісно оцініть ступінь подібності спрямованого руху.

Редагувати: Поміркувавши над тим, що я дійсно хочу зробити зі своїми даними, і зважаючи на відповіді на моє первісне запитання, мені потрібно алгоритм прийняття рішень щодо вибору між конкуруючими припущеннями: а саме, що мої дані в основному лінійні (або в тренді) із шумом, який, можливо, може мати циклічні елементи; мої дані, в основному, циклічні, без спрямованої тенденції говорити; дані по суті є лише шумом; або це перехід між будь-яким із цих станів.

Зараз мої думки полягають у тому, щоб, можливо, поєднати якусь форму байєсівського аналізу та евклідової / LMS-метрики. Кроки в цьому підході були б

Створіть припущену синусоїду з вимірювань даних

Встановити пряму лінію LMS до даних

Отримайте евклідову або LMS-метрику для відхилень від вихідних даних для кожного з перерахованих вище

Створіть байєсівський пріоритет для кожного на основі цього показника, тобто 60% комбінованих відправлень приєднується до одного, 40% до іншого, отже, перевагу 40%

просуньте вікно по одній точці даних уздовж даних і повторіть вище, щоб отримати нові% метрики для цього незначно зміненого набору даних - це нове свідчення - зробіть аналіз Байєса, щоб створити задній і змінити ймовірності, які сприяють кожному припущенню

повторіть уздовж всього набору даних (3000+ точок даних) за допомогою цього розсувного вікна (довжина вікна 10-50 точок даних). Надія / намір полягає в тому, щоб визначити переважне / сприятливе припущення в будь-якій точці набору даних і як це змінюється з часом

Будь-які зауваження щодо цієї потенційної методології будуть вітатися, особливо щодо того, як я міг реально реалізувати байєсівську частину аналізу.

Відповіді:


7

Евклідова відстань є загальною метрикою в машинному навчанні. Наступні слайди дають хороший огляд цієї області разом із посиланнями:

Також дивіться посилання на сторінку еталонів Keogh щодо класифікації часових рядів:


5

Якщо у вас є конкретна модель, яку ви хочете порівняти з: я б рекомендував найменші квадрати як метрику для мінімізації та оцінки можливих значень параметрів щодо конкретного набору даних. Все, що вам потрібно зробити, це підключити до ваших оцінок параметрів, використовувати їх для створення прогнозованих значень та обчислити середнє квадратичне відхилення від справжніх значень.

Однак ви можете розглянути питання про те, щоб трохи змінити питання: "Яка модель найкраще відповідає моїм даним?" У такому випадку я б запропонував зробити припущення про звичайно розподілений термін помилки ~ те, що можна стверджувати, схоже на припущення про найменші квадрати. Тоді, залежно від обраного вами моделі, ви можете зробити припущення про те, як ви думаєте, що параметри інших моделей розподіляються (призначаючи байєсівський пріоритет) і використовувати щось на зразок пакета MCMC від R до вибірки з розподілу параметрів. Тоді ви можете подивитися на задні засоби та відхилення, щоб зрозуміти, яка модель найкраще підходить.


Якщо у мене є дві можливі моделі, які підходять до моїх даних, синусоїда, як описано в моєму первісному запитанні, та пряма лінія LMS, чи можу я просто порівняти середнє квадратичне відхилення від істинних значень синусоїди з залишками LMS-відповідність, а потім вибирати модель з нижчим загальним значенням на тій підставі, що ця модель виявляє більш точне пристосування до даних? Якщо так, то чи справедливо було б, можливо, розділити дані на половинки і зробити те ж саме з кожною половинкою окремо, використовуючи ту саму синусоїду / LMS, щоб побачити, як кожна модель може вдосконалюватися / погіршуватися з часом?
babelproofreader

Я не впевнений. Моя пропозиція полягала в тому, щоб використовувати метрику "Найменші квадрати", але я не казав виконувати лінійну регресію. Ви можете перевірити періодичну регресію .
М. Тіббіт

Щодо вашого іншого запитання, чи можете ви скоротити дані навпіл, я б дуже обережно це робив - бо це подвоїло мінімальну частоту, яку ви могли б врахувати. Я думаю, що вам може знадобитися подивитися на коефіцієнти Фур'є (взяти FFT або DCT і регресувати на них?!? - Не впевнений ). Або, можливо, періодична регресія, як згадувалося вище.
М. Тіббіт

3

Ваша "спрощена перша думка" про якісне представлення лише спрямованого руху схожа за духом на алгоритм SAX від Keogh для порівняння часових рядів. Рекомендую поглянути на це: Еймонн Кеог і Джессіка Лін: SAX .

З вашого редагування здається, що ви зараз думаєте про вирішення проблеми по-іншому, але ви можете виявити, що SAX є частиною головоломки.


0

Хоча я трохи запізнююся на вечірку, якщо ви думаєте про що-небудь синусоїдальне, вейвлетські перетворення - хороший інструмент для того, щоб мати і в кишені. Теоретично ви можете використовувати вейвлет-перетворення для розкладання послідовності на різні "частини" (наприклад, хвилі різної форми / частоти, нехвильові компоненти, такі як тренди тощо). Конкретною формою хвильового перетворення, що використовується в тоні, є перетворення Фур'є, але в цій галузі багато роботи. Мені б хотілося порекомендувати поточний пакет, але я не займався аналізом сигналу вже досить давно. Однак я пригадую деякі пакети Matlab, що підтримують функціональність у цій галузі.

Ще один напрямок, якщо ви лише намагаєтеся знайти тенденції циклічних даних - це щось на кшталт тесту Манна-Кендалла. Він використовується багато для таких речей, як виявлення змін погоди або якості води, що має сильний сезонний вплив. У ньому немає дзвінків деяких більш прогресивних підходів, але оскільки це ветеранський статистичний тест, інтерпретувати та звітувати його досить просто.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.