242

Оновлення: Найефективніший алгоритм на даний момент - це цей .

Це питання досліджує надійні алгоритми для виявлення раптових піків даних реальних часових серій.

Розглянемо наступний набір даних:

p = [1 1 1.1 1 0.9 1 1 1.1 1 0.9 1 1.1 1 1 0.9 1 1 1.1 1 1 1 1 1.1 0.9 1 1.1 1 1 0.9 1, ...
     1.1 1 1 1.1 1 0.8 0.9 1 1.2 0.9 1 1 1.1 1.2 1 1.5 1 3 2 5 3 2 1 1 1 0.9 1 1 3, ... 
     2.6 4 3 3.2 2 1 1 0.8 4 4 2 2.5 1 1 1];

_{(Формат Matlab, але мова йде не про мову, а про алгоритм)}

Ви чітко бачите, що є три великі вершини та кілька маленьких вершин. Цей набір даних є специфічним прикладом класу наборів даних тимчасових журналів, про які йдеться. Цей клас наборів даних має дві загальні особливості:

Є базовий шум із загальним середнім значенням
Є великі " піки " або " точки вищої інформації ", які значно відхиляються від шуму.

Припустимо також наступне:

ширину вершин не можна визначити заздалегідь
висота вершин чітко і суттєво відхиляється від інших значень
використовуваний алгоритм повинен обчислювати реальний час (так змінюйте з кожною новою точкою даних)

У такій ситуації потрібно побудувати граничне значення, яке запускає сигнали. Однак граничне значення не може бути статичним і повинно визначатися в реальному часі на основі алгоритму.

Моє запитання: який хороший алгоритм для обчислення таких порогів у режимі реального часу? Чи існують конкретні алгоритми для таких ситуацій? Які найбільш відомі алгоритми?

_{Надійні алгоритми або корисні відомості високо оцінюються. (може відповісти будь-якою мовою: мова йде про алгоритм)}

— Жан-Пол
джерело

5

Там повинен бути якийсь - то абсолютна вимога по висоті для того , щоб бути пік на додаток до вимог , ви вже дали. В іншому випадку пік у часі 13 слід вважати піком. (Рівнозначно: якщо в майбутньому піки піднялися до 1000 або більше, то дві вершини в 25 та 35 не слід вважати піками.)

— j_random_hacker

Я згоден. Припустимо, що ці вершини - це ті, про які нам потрібно лише розглянути.

— Жан-Пол

Ви можете задати неправильне запитання. Замість того, щоб запитати, як ви можете виявити без зволікання, ви можете запитати, чи можна виявити певний тип сигналу без затримки, задаючи лише те, що відомо до того часу, або що потрібно знати про сигнал, щоб виявити щось із деяким заданим затримка.

— hotpaw2

2

Я раніше робив це для виявлення різкої зміни інтенсивності світла на фотосенсорі. Я зробив це за допомогою ковзної середньої та ігнорування будь-яких точок даних, що перевищує поріг. Зауважте, що цей поріг відрізняється від порога, що визначає пік. Так, скажімо, ви включаєте лише ті точки даних, які знаходяться в межах одного stddev до вашої ковзної середньої величини, і вважаєте ті точки даних з більш ніж трьома stddev як піки. Цей алгоритм зробив дуже вдалий для нашого контексту застосування того часу.

— justhalf

1

А, бачу. Я не очікував цього в кодовій формі. Якби я бачив це питання раніше, напевно, ти би отримав цю відповідь набагато швидше = D. У будь-якому разі, моя заява того часу полягала в тому, щоб виявити, чи не є фотосенсор забрудненим від джерела навколишнього світла (саме тому нам потрібна ковзна середня, оскільки джерело світла навколишнього середовища може поступово змінюватися з часом). Ми створили це як гру, де ви повинні навести руку над сенсорами за певною схемою. = D

— justhalf

334

Міцний алгоритм виявлення піків (з використанням z-балів)

Я придумав алгоритм, який дуже добре працює для цих типів наборів даних. Він заснований на принципі дисперсії : якщо нова точка даних - це задане x кількість стандартних відхилень від деякого рухомого середнього, алгоритм подає сигнал (також званий z-оцінка ). Алгоритм дуже надійний, оскільки він будує окреме рухоме значення та відхилення, так що сигнали не пошкоджують поріг. Отже, майбутні сигнали ототожнюються приблизно з однаковою точністю, незалежно від кількості попередніх сигналів. Алгоритм має 3 входи: lag = the lag of the moving window, threshold = the z-score at which the algorithm signalsі influence = the influence (between 0 and 1) of new signals on the mean and standard deviation. Наприклад, lagз 5 буде використано останні 5 спостережень для вирівнювання даних. Аthresholdз 3,5 буде сигналізувати, якщо точка даних становить 3,5 стандартних відхилень від рухомого середнього. А influence0,5 дає сигналам половину впливу, який мають нормальні точки даних. Точно так само influence0 ігнорує сигнали повністю для перерахунку нового порогу. Отже, вплив 0 є найбільш надійним варіантом (але передбачає стаціонарність ); розміщення варіанта впливу на 1 є найменш надійним. Для нестаціонарних даних варіант впливу повинен бути поставлений десь між 0 і 1.

Він працює наступним чином:

Псевдокод

# Let y be a vector of timeseries data of at least length lag+2
# Let mean() be a function that calculates the mean
# Let std() be a function that calculates the standard deviaton
# Let absolute() be the absolute value function

# Settings (the ones below are examples: choose what is best for your data)
set lag to 5;          # lag 5 for the smoothing functions
set threshold to 3.5;  # 3.5 standard deviations for signal
set influence to 0.5;  # between 0 and 1, where 1 is normal influence, 0.5 is half

# Initialize variables
set signals to vector 0,...,0 of length of y;   # Initialize signal results
set filteredY to y(1),...,y(lag)                # Initialize filtered series
set avgFilter to null;                          # Initialize average filter
set stdFilter to null;                          # Initialize std. filter
set avgFilter(lag) to mean(y(1),...,y(lag));    # Initialize first value
set stdFilter(lag) to std(y(1),...,y(lag));     # Initialize first value

for i=lag+1,...,t do
  if absolute(y(i) - avgFilter(i-1)) > threshold*stdFilter(i-1) then
    if y(i) > avgFilter(i-1) then
      set signals(i) to +1;                     # Positive signal
    else
      set signals(i) to -1;                     # Negative signal
    end
    # Reduce influence of signal
    set filteredY(i) to influence*y(i) + (1-influence)*filteredY(i-1);
  else
    set signals(i) to 0;                        # No signal
    set filteredY(i) to y(i);
  end
  # Adjust the filters
  set avgFilter(i) to mean(filteredY(i-lag),...,filteredY(i));
  set stdFilter(i) to std(filteredY(i-lag),...,filteredY(i));
end

Правила щодо вибору хороших параметрів для своїх даних можна знайти нижче.

Демо

_{Код Matlab для цієї демонстрації можна знайти тут . Щоб використовувати демо, просто запустіть його та створіть часовий ряд, натиснувши на верхню діаграму. Алгоритм починає працювати після отримання lagкількості спостережень.}

Результат

Для оригінального запитання цей алгоритм дасть наступний результат при використанні таких параметрів lag = 30, threshold = 5, influence = 0:

Реалізація різними мовами програмування:

Матлаб (я)
R (мене)
Голанг (Ксеонкросс)
Пітон (Р. Кисельов)
Python [ефективна версія] (delica)
Свіфт (мені)
Groovy (JoshuaCWebDeveloper)
C ++ (брад)
C ++ (Анімеш Панді)
Іржа (майстер)
Скала (Майк Робертс)
Котлін (леодерпрофі)
Рубі (Кіммо Лехто)
Фортран [для резонансного виявлення] (ТО)
Джулія (Метт Кемп)
C # (океанічна капка)
C (DavidC)
Java (takanuva15)
JavaScript (Дірк Люсебринк)
TypeScript (Джеррі Гембл)
Perl (Ален)
PHP (radhoo)

Правила конфігурації алгоритму

lag: параметр відставання визначає, наскільки ваші дані будуть згладжені та наскільки адаптивний алгоритм до змін у довгостроковому середньому рівні даних. Чим більше стаціонарні ваші дані, тим більше лагів слід включати (це повинно покращити надійність алгоритму). Якщо ваші дані містять тенденції, що змінюються за часом, ви повинні врахувати, наскільки швидко ви хочете, щоб алгоритм адаптувався до цих тенденцій. Тобто, якщо ви ставите lagна 10, це потребує 10 "періодів", перш ніж поріг алгоритму буде скоригований на будь-які систематичні зміни в середньому за довгий період. Тому вибирайте lagпараметр, виходячи з тенденції поведінки ваших даних та наскільки адаптивним ви хочете алгоритм.

influence: цей параметр визначає вплив сигналів на поріг виявлення алгоритму. Якщо поставити 0, сигнали не впливають на поріг, таким чином, що майбутні сигнали визначаються на основі порогу, який обчислюється із середнім та стандартним відхиленням, на яке не впливають минулі сигнали. Інший спосіб подумати про це полягає в тому, що якщо ви поставите вплив на 0, ви неявно припускаєте стаціонарність (тобто незалежно від того, скільки сигналів є, часовий ряд завжди повертається до однакового середнього протягом тривалого періоду). Якщо це не так, слід встановити параметр впливу десь між 0 і 1, залежно від того, наскільки сигнали можуть систематично впливати на тенденцію змін даних у часі. Наприклад, якщо сигнали призводять до структурного розриву серед довгострокового середнього періоду часового ряду, параметр впливу слід ставити високим (близьким до 1), щоб поріг міг швидко підлаштовуватися під ці зміни.

threshold: пороговий параметр - це кількість стандартних відхилень від рухомого середнього, над яким алгоритм класифікує нову точку даних як сигнал. Наприклад, якщо в новій точці даних 4,0 стандартних відхилень вище рухомої середньої величини, а пороговий параметр встановлено як 3,5, алгоритм ідентифікує точку даних як сигнал. Цей параметр слід встановити, виходячи з кількості очікуваних сигналів. Наприклад, якщо ваші дані звичайно поширюються, поріг (або: z-оцінка) 3,5 відповідає вірогідності сигналізації 0,00047 (з цієї таблиці), що означає, що ви очікуєте сигнал раз на 2128 точок даних (1 / 0,00047). Таким чином, поріг безпосередньо впливає на те, наскільки алгоритм чутливий, а отже, також, наскільки часто алгоритм подає сигнал. Вивчіть власні дані та визначте розумний поріг, який дає сигнал алгоритму, коли ви хочете його (тут може знадобитися деяка пробна і помилка, щоб досягти хорошого порогу для вашої мети).

ПОПЕРЕДЖЕННЯ: Код, що знаходиться вище, завжди перетинає всі точки даних кожного разу, коли він працює. Реалізуючи цей код, обов’язково розділіть обчислення сигналу на окрему функцію (без циклу). Потім , коли новий DataPoint прибуває, оновлення filteredY, avgFilterі stdFilterодин раз. Не перераховуйте сигнали для всіх даних кожного разу, коли з’явиться нова точка даних (як у прикладі вище), що було б надзвичайно неефективно та повільно!

Іншими способами модифікації алгоритму (для потенційних вдосконалень) є:

Використовуйте медіану замість середньої
Використовуйте надійну міру масштабу , наприклад, MAD, замість стандартного відхилення
Використовуйте межу сигналізації, тому сигнал не перемикається занадто часто
Змініть спосіб роботи параметра впливу
По- різному поводьтеся з сигналами вгору та вниз (асиметричне лікування)
Створіть окремий influenceпараметр для mean і std ( як це зроблено в цьому перекладі Swift )

(Відомі) академічні цитати до цієї відповіді StackOverflow:

Інь, С. (2020). Динуклеотид повторюється в геномі коронавірусу SARS-CoV-2: еволюційні наслідки . Електронний друк ArXiv, доступний за посиланням: https://arxiv.org/pdf/2006.00280.pdf
Еснаола-Гонсалес, І., Гомес-Омелла, М., Феррейро, С., Фернандес, І., Лазаро, І., Гарсія, Е. (2020). Платформа IoT на шляху до розширення ланцюгів виробництва птиці . Датчики, 20 (6), 1549.
Gao, S., & Calderon, DP (2020). Безперервні схеми кортико-моторної інтеграції калібрують рівень збудження під час виходу з наркозу . bioRxiv.
Хмара, Б., Тарієн, Б., Лю, А., Шедд, Т., Лін, X., Хаббард, М., ... і Мур, ЖК (2019). Адаптивний сенсорний синтез на основі смартфона для оцінки конкурентоспроможних кінематичних показників веслування . PloS один, 14 (12).
Ceyssens, F., Carmona, MB, Kil, D., Deprez, M., Tooten, E., Nuttin, B., ... & Puers, R. (2019). Хронічний нейронний запис зондами підклітинного перерізу з використанням 0,06 мм ² розчинених мікроносів як пристрою для введення . Датчики та пускачі В: Хімічна , 284, с. 369-376.
Dons, E., Laeremans, M., Orjuela, JP, Avila-Palencia, I., de Nazelle, A., Nieuwenhuijsen, M., ... & Nawrot, T. (2019). Транспорт , швидше за все , щоб викликати пік забруднення повітря вплив в повсякденному житті: Дані з більш ніж 2000 днів персонального моніторингу . Атмосферне середовище , 213, 424-432.
Schaible BJ, Snook KR, Yin J. та ін. (2019). Розмови в Twitter та англійські ЗМІ повідомляють про поліомієліт у п'яти різних країнах, січень 2014 - квітень 2015 року . Журнал Permanente , 23, 18-181.
Ліма, Б. (2019). Дослідження поверхні об'єкта за допомогою тактильного робочого пальця (з докторською дисертацією, Університет Оттави / Університет Оттави).
Lima, BMR, Ramos, LCS, de Oliveira, TEA, da Fonseca, VP, & Petriu, EM (2019). Виявлення серцевого ритму за допомогою мультимодального тактильного датчика та алгоритму виявлення піку на основі Z-оцінки . Праці CMBES , 42.
Lima, BMR, de Oliveira, TEA, da Fonseca, VP, Zhu, Q., Goubran, M., Groza, VZ, & Petriu, EM (2019, червень). Виявлення серцевого ритму за допомогою мініатюрного мультимодального тактильного датчика . У 2019 році Міжнародний симпозіум IEEE з медичних вимірювань та застосувань (MeMeA) (с. 1-6). IEEE.
Ting, C., Field, R., Quach, T., Bauer, T. (2019). Узагальнене виявлення кордонів за допомогою аналітики на основі стиснення . Міжнародна конференція ICASSP 2019 - 2019 IEEE з питань акустики, мови та обробки сигналів (ICASSP) , Брайтон, Великобританія, с. 3522-3526.
Перевізник, EE (2019). Використання стиснення при вирішенні дискретизованих лінійних систем . Докторська дисертація , Університет Іллінойсу, Урбана-Шампейн.
Khandakar, A., Chowdhury, ME, Ahmed, R., Dhib, A., Mohammed, M., Al-Emadi, NA, & Michelson, D. (2019). Портативна система контролю та контролю поведінки водія та використання мобільного телефону під час руху . Датчики , 19 (7), 1563.
Баскозос, Г., Доуес, Дж. М., Остін, Дж. С., Антонес-Мартінс, А., МакДермотт, Л., Кларк, AJ, ... і Оренго, C. (2019). Комплексний аналіз тривалої експресії РНК у корінному гангліозі дорсального кореня виявляє специфічність клітинного типу та дисрегуляцію після травми нерва . Біль , 160 (2), 463.
Cloud, B., Tarien, B., Crawford, R., & Moore, J. (2018). Адаптивний сенсорний синтез на основі смартфона для оцінки конкурентоспроможних кінематичних показників веслування . engrXiv Препринти .
Zajdel, TJ (2018). Електронні інтерфейси для біочутливості на основі бактерій . Докторська дисертація , УК Берклі.
Перкінс, П., Гебер, С. (2018). Ідентифікація сайтів пауз з рибосомою за допомогою алгоритму виявлення піку на основі Z-Score . IEEE 8-а міжнародна конференція з обчислювальних досягнень в галузі біологічних та медичних наук (ICCABS) , ISBN: 978-1-5386-8520-4.
Moore, J., Goffin, P., Meyer, M., Lundrigan, P., Patwari, N., Sward, K., & Wiese, J. (2018). Керування в домашніх умовах за допомогою зондування, коментування та візуалізації даних про якість повітря . Праці ОСББ з питань інтерактивних, мобільних, носячих та всюдисущих технологій , 2 (3), 128.
Lo, O., Buchanan, WJ, Griffiths, P., and Macfarlane, R. (2018), Методи вимірювання відстані для вдосконаленого виявлення внутрішніх загроз , мереж безпеки та зв'язку , Vol. 2018, артикул ID 5906368.
Apurupa, NV, Singh, P., Chakravarthy, S., & Buduru, AB (2018). Критичне дослідження моделей споживання енергії в індійських квартирах . Докторська дисертація , ІІІТ-Делі.
Scirea, M. (2017). Афективна генерація музики та її вплив на досвід гравців . Докторська дисертація , ІТ-університет Копенгагена, цифровий дизайн.
Scirea, M., Eklund, P., Togelius, J., & Risi, S. (2017). Primal-improv: Назустріч коеволюційній музичній імпровізації . Інформатика та електронна інженерія (CEEC) , 2017 (с. 172-177). IEEE.
Катальбас, МС, Чеговник, Т., Содник, Дж. І Гултен, А. (2017). Виявлення втоми водія на основі саккадичних рухів очей , 10 Міжнародна конференція з електричної та електронічної техніки (ELECO), стор 913-917.

Інші роботи з використанням алгоритму

Бернарді, Д. (2019). Техніко-економічне обгрунтування спарювання смарт-годинника та мобільного пристрою за допомогою мультимодальних жестів . Магістерська робота , університет Аалто.
Лемменс, Е. (2018). Виявлення зовнішніх даних у журналах подій за допомогою статистичних методів , магістерська робота , Університет Ейндговена.
Віллемс, П. (2017). Настроєні афективні умови для людей похилого віку , магістерська робота , університет Твенте.
Ciocirdel, GD та Varga, M. (2016). Прогнозування виборів на основі перегляду сторінок у Вікіпедії . Документ для проекту , Vrije Universiteit Amsterdam.

Інші програми цього алгоритму

Фінансова лабораторія машинного навчання , пакет Python на основі роботи De Prado, ML (2018). Успіхи фінансового машинного навчання . Джон Вілі та сини.
Adafruit CircuitPlayground Library , Adafruit board (Adafruit Industries)
Алгоритм крокового відстеження , додаток для Android (jeeshnair)

Посилання на інші алгоритми виявлення піку

Виявлення піку в реальному часі в галасливих синусоїдальних часових рядах

Якщо ви десь використовуєте цю функцію, будь ласка, припишіть мені цю відповідь. Якщо у вас є якісь питання щодо цього алгоритму, опублікуйте їх у коментарях нижче або зверніться до мене на LinkedIn .

— Жан-Пол
джерело

Посилання на movestd розірвано, але опис його можна знайти тут

— Phylliida

@reasra Виявляється, функція не потребує рухомого стандартного відхилення після переписування. Тепер його можна використовувати з простими вбудованими функціями Matlab :)

— Жан-Пол

1

Я намагаюсь код Matlab для деяких даних акселерометра, але чомусь thresholdграфік стає просто плоскою зеленою лінією після великого шипу до 20, і він залишається таким для решти графіка ... Якщо Я видаляю сик, це не відбувається, тому, здається, це викликано шипом даних. Будь-яка ідея, що може бути? Я новачок у Матлабі, тому не можу це зрозуміти ...

— Magnus W

@BadCash Чи можете ви навести приклад (із даними)? Можливо, задайте власне запитання тут, на SO та скажіть мені посилання?

— Жан-Пол

2

Існує багато способів поліпшити цю альго, тому будьте креативними (різний режим лікування вгору / вниз; медіана замість середнього; надійний std; запис коду як функції, що ефективно працює з пам'яттю; порогова межа, щоб сигнал не перемикався занадто часто тощо) .).

— Жан-Пол

41

Ось Python/ numpyреалізація згладженого алгоритму z-score (див. Відповідь вище ). Ви можете знайти суть тут .

#!/usr/bin/env python
# Implementation of algorithm from https://stackoverflow.com/a/22640362/6029703
import numpy as np
import pylab

def thresholding_algo(y, lag, threshold, influence):
    signals = np.zeros(len(y))
    filteredY = np.array(y)
    avgFilter = [0]*len(y)
    stdFilter = [0]*len(y)
    avgFilter[lag - 1] = np.mean(y[0:lag])
    stdFilter[lag - 1] = np.std(y[0:lag])
    for i in range(lag, len(y)):
        if abs(y[i] - avgFilter[i-1]) > threshold * stdFilter [i-1]:
            if y[i] > avgFilter[i-1]:
                signals[i] = 1
            else:
                signals[i] = -1

            filteredY[i] = influence * y[i] + (1 - influence) * filteredY[i-1]
            avgFilter[i] = np.mean(filteredY[(i-lag+1):i+1])
            stdFilter[i] = np.std(filteredY[(i-lag+1):i+1])
        else:
            signals[i] = 0
            filteredY[i] = y[i]
            avgFilter[i] = np.mean(filteredY[(i-lag+1):i+1])
            stdFilter[i] = np.std(filteredY[(i-lag+1):i+1])

    return dict(signals = np.asarray(signals),
                avgFilter = np.asarray(avgFilter),
                stdFilter = np.asarray(stdFilter))

Нижче наводиться тест на тому ж наборі даних, який дає той же графік, що і в оригінальній відповіді для R/Matlab

# Data
y = np.array([1,1,1.1,1,0.9,1,1,1.1,1,0.9,1,1.1,1,1,0.9,1,1,1.1,1,1,1,1,1.1,0.9,1,1.1,1,1,0.9,
       1,1.1,1,1,1.1,1,0.8,0.9,1,1.2,0.9,1,1,1.1,1.2,1,1.5,1,3,2,5,3,2,1,1,1,0.9,1,1,3,
       2.6,4,3,3.2,2,1,1,0.8,4,4,2,2.5,1,1,1])

# Settings: lag = 30, threshold = 5, influence = 0
lag = 30
threshold = 5
influence = 0

# Run algo with settings from above
result = thresholding_algo(y, lag=lag, threshold=threshold, influence=influence)

# Plot result
pylab.subplot(211)
pylab.plot(np.arange(1, len(y)+1), y)

pylab.plot(np.arange(1, len(y)+1),
           result["avgFilter"], color="cyan", lw=2)

pylab.plot(np.arange(1, len(y)+1),
           result["avgFilter"] + threshold * result["stdFilter"], color="green", lw=2)

pylab.plot(np.arange(1, len(y)+1),
           result["avgFilter"] - threshold * result["stdFilter"], color="green", lw=2)

pylab.subplot(212)
pylab.step(np.arange(1, len(y)+1), result["signals"], color="red", lw=2)
pylab.ylim(-1.5, 1.5)
pylab.show()

— Р Кисельов
джерело

Тут "у" насправді сигнал, а "сигнали" - це сукупність точок даних, я правильно розумію?

— TheTank

1

@TheTank y- це масив даних, який ви signalsпередаєте , - це масив виводу +1або -1вихід, який вказує для кожної точки даних, y[i]чи є ця точка "значним піком" з огляду на використовувані вами налаштування.

— Жан-Поль

23

Один із підходів - виявлення піків на основі наступного спостереження:

Час t - пік, якщо (y (t)> y (t-1)) && (y (t)> y (t + 1))

Це дозволяє уникнути помилкових позитивів, чекаючи, поки закінчиться висхідний тренд. Це не зовсім "в реальному часі" в тому сенсі, що він пропустить пік на один дт. чутливість можна контролювати, вимагаючи запасу для порівняння. Існує компроміс між шумовим виявленням і затримкою виявлення в часі. Можна збагатити модель, додавши більше параметрів:

пік, якщо (y (t) - y (t-dt)> m) && (y (t) - y (t + dt)> m)

де dt і m - параметри для контролю чутливості проти затримки в часі

Ось що ви отримуєте із згаданого алгоритму: введіть тут опис зображення

ось код для відтворення ділянки в python:

import numpy as np
import matplotlib.pyplot as plt
input = np.array([ 1. ,  1. ,  1. ,  1. ,  1. ,  1. ,  1. ,  1.1,  1. ,  0.8,  0.9,
    1. ,  1.2,  0.9,  1. ,  1. ,  1.1,  1.2,  1. ,  1.5,  1. ,  3. ,
    2. ,  5. ,  3. ,  2. ,  1. ,  1. ,  1. ,  0.9,  1. ,  1. ,  3. ,
    2.6,  4. ,  3. ,  3.2,  2. ,  1. ,  1. ,  1. ,  1. ,  1. ])
signal = (input > np.roll(input,1)) & (input > np.roll(input,-1))
plt.plot(input)
plt.plot(signal.nonzero()[0], input[signal], 'ro')
plt.show()

Встановивши m = 0.5, ви можете отримати чистіший сигнал лише з одним помилковим позитивом: введіть тут опис зображення

— ага
джерело

Раніше = краще, тому всі вершини значні. Дякую! Дуже круто!

— Жан-Пол

Як би я міг змінити чутливість?

— Жан-Пол

Я можу придумати два підходи: 1: встановити m на велике значення, щоб виявлялися лише більші вершини. 2: замість обчислення y (t) - y (t-dt) (і y (t) - y (t + dt)) ви інтегруєте від t-dt до t (і t до t + dt).

— ага

2

За якими критеріями ви відхиляєте інші 7 вершин?

— hotpaw2

4

Виникає проблема з плоскими вершинами, оскільки те, що ви робите, - це в основному 1-D виявлення ребер (як, наприклад, згортання сигналу з [1 0 -1])

— ben

18

При обробці сигналу пікове виявлення часто здійснюється за допомогою вейвлет-перетворення. Ви в основному робите дискретні вейвлет-перетворення на даних часових рядів. Нульові переходи в коефіцієнтах деталізації, які повертаються, будуть відповідати пікам сигналу часового ряду. Ви отримуєте різну пікову амплітуду, виявлену на різних рівнях коефіцієнта деталізації, що дає багаторівневу роздільну здатність.

— cklin
джерело

1

Ваша відповідь дозволить мені цю статтю і цю відповідь, яка допоможе мені побудувати хороший алгоритм моєї реалізації. Дякую!

— Жан-Пол

@cklin Чи можете ви пояснити, як ви обчислюєте нульові перетини вейвлет-коефіцієнтів, оскільки вони не знаходяться на тій же шкалі часу, що і початковий часовий ряд. Будь-яка відмова від цього використання?

— horaceT

11

Ми намагалися використовувати алгоритм згладженого z-score на нашому наборі даних, що призводить до надмірно чутливості або недостатньої чутливості (залежно від налаштування параметрів) з невеликим середнім рівнем. У сигналі про трафік нашого сайту ми спостерігали низьку частоту базової лінії, яка відображає добовий цикл, і навіть з найкращими можливими параметрами (показано нижче), вона все ще відключається, особливо на 4-й день, оскільки більшість точок даних визнаються аномалією .

Спираючись на оригінальний алгоритм z-score, ми придумали спосіб вирішити цю проблему шляхом зворотної фільтрації. Подробиці модифікованого алгоритму та його застосування для рекламного віднесення реклами на телебаченні розміщені в нашому блозі команди .

— jbm
джерело

Прикольно бачити, що алгоритм став відправною точкою для вашої більш вдосконаленої версії. Ваші дані мають дуже конкретну схему, тому справді було б більше сенсу спочатку видалити шаблон за допомогою іншої техніки, а потім застосувати альго на залишки. Крім того, ви можете використати по центру замість відставання вікна для обчислення середнього / ст.дев. Ще один коментар: ваше рішення рухається праворуч наліво, щоб виявити шипи, але це неможливо в додатках у режимі реального часу (саме тому оригінальний алго настільки спрощений, оскільки майбутня інформація недоступна).

— Жан-Пол

10

У обчислювальній топології ідея стійкої гомології призводить до ефективного - швидкого, як сортування чисел - рішення. Він не лише виявляє піки, але кількісно визначає "значущість" вершин природним чином, що дозволяє вибирати значні для вас вершини.

Підсумок алгоритму. У одновимірній установці (часовий ряд, сигнал з реальною величиною) алгоритм може бути легко описаний наступним малюнком:

Найбільш стійкі вершини

Подумайте про графік функції (або його підрівень) як пейзаж і розгляньте зниження рівня води, починаючи з рівня нескінченності (або 1,8 на цьому малюнку). Поки рівень зменшується, на місцевих островах максимумів спливають. У місцевих мінімумах ці острови зливаються між собою. Однією деталлю цієї ідеї є те, що острів, що з’явився пізніше, зливається в острів, який є старшим. "Наполегливість" острова - це час його народження за мінусом часу смерті. Довжини блакитних смуг зображують стійкість, яка є вищезгаданою "значимістю" піку.

Ефективність. Не надто важко знайти реалізацію, яка працює в лінійний час - адже це єдиний простий цикл - після сортування значень функції. Тож ця реалізація має бути швидкою на практиці та також легко реалізовуватися.

Список літератури. Опис усієї розповіді та посилання на мотивацію від стійкої гомології (поле в обчислювальній алгебраїчній топології) можна знайти тут: https://www.sthu.org/blog/13-perstopology-peakdetection/index.html

— С. Губер
джерело

Цей алгоритм набагато швидший і точніший, ніж, наприклад, scipy.signal.find_peaks. Для "реального" часового ряду з 1053896 точок даних було виявлено 137516 піків (13%). Порядок вершин (найзначніший перший) дозволяє витягти найзначніші вершини. Він забезпечує початок, пік і кінець кожного піку. Добре працює з галасливими даними.

— вінь

Під даними в режимі реального часу ви маєте на увазі так званий онлайн-алгоритм, коли точки даних отримують час за часом. Значення піку може визначатися значеннями в майбутньому. Було б непогано розширити алгоритм, щоб вийти в Інтернет, змінивши минулі результати, не надто приносячи шкоді складності часу.

— С. Хубер

9

Знайшов інший алгоритм Г. Г. Пальшикар у простих алгоритмах для виявлення піку в часових рядах .

Алгоритм виходить так:

algorithm peak1 // one peak detection algorithms that uses peak function S1 

input T = x1, x2, …, xN, N // input time-series of N points 
input k // window size around the peak 
input h // typically 1 <= h <= 3 
output O // set of peaks detected in T 

begin 
O = empty set // initially empty 

    for (i = 1; i < n; i++) do
        // compute peak function value for each of the N points in T 
        a[i] = S1(k,i,xi,T); 
    end for 

    Compute the mean m' and standard deviation s' of all positive values in array a; 

    for (i = 1; i < n; i++) do // remove local peaks which are “small” in global context 
        if (a[i] > 0 && (a[i] – m') >( h * s')) then O = O + {xi}; 
        end if 
    end for 

    Order peaks in O in terms of increasing index in T 

    // retain only one peak out of any set of peaks within distance k of each other 

    for every adjacent pair of peaks xi and xj in O do 
        if |j – i| <= k then remove the smaller value of {xi, xj} from O 
        end if 
    end for 
end

Переваги

У статті подано 5 різних алгоритмів для пікового виявлення
Алгоритми працюють над необробленими даними часових рядів (не потрібно згладжувати)

Недоліки

Складно визначити kі hзаздалегідь
Піки не можуть бути рівними (як третій пік у моїх тестових даних)

Приклад:

введіть тут опис зображення

— Жан-Пол
джерело

Насправді цікавий папір. На його думку, S4 здається кращою функцією. Але важливіше - з’ясувати, коли k <i <Nk не відповідає дійсності. Як би визначити функцію S1 (S2, ..) для i = 0, я просто не розділив на 2 і проігнорував перший операнд, а для кожного іншого я включив обидва операнди, але для i <= k було менше операндів зліва потім праворуч

— daniels_pa

8

Ось реалізація алгоритму Smoothed z-score (вище) у Голанзі. Він передбачає фрагмент []int16(зразки PCM 16 біт). Ви можете знайти суть тут .

/*
Settings (the ones below are examples: choose what is best for your data)
set lag to 5;          # lag 5 for the smoothing functions
set threshold to 3.5;  # 3.5 standard deviations for signal
set influence to 0.5;  # between 0 and 1, where 1 is normal influence, 0.5 is half
*/

// ZScore on 16bit WAV samples
func ZScore(samples []int16, lag int, threshold float64, influence float64) (signals []int16) {
    //lag := 20
    //threshold := 3.5
    //influence := 0.5

    signals = make([]int16, len(samples))
    filteredY := make([]int16, len(samples))
    for i, sample := range samples[0:lag] {
        filteredY[i] = sample
    }
    avgFilter := make([]int16, len(samples))
    stdFilter := make([]int16, len(samples))

    avgFilter[lag] = Average(samples[0:lag])
    stdFilter[lag] = Std(samples[0:lag])

    for i := lag + 1; i < len(samples); i++ {

        f := float64(samples[i])

        if float64(Abs(samples[i]-avgFilter[i-1])) > threshold*float64(stdFilter[i-1]) {
            if samples[i] > avgFilter[i-1] {
                signals[i] = 1
            } else {
                signals[i] = -1
            }
            filteredY[i] = int16(influence*f + (1-influence)*float64(filteredY[i-1]))
            avgFilter[i] = Average(filteredY[(i - lag):i])
            stdFilter[i] = Std(filteredY[(i - lag):i])
        } else {
            signals[i] = 0
            filteredY[i] = samples[i]
            avgFilter[i] = Average(filteredY[(i - lag):i])
            stdFilter[i] = Std(filteredY[(i - lag):i])
        }
    }

    return
}

// Average a chunk of values
func Average(chunk []int16) (avg int16) {
    var sum int64
    for _, sample := range chunk {
        if sample < 0 {
            sample *= -1
        }
        sum += int64(sample)
    }
    return int16(sum / int64(len(chunk)))
}

— Ксеонкросс
джерело

@ Жан-Пол Я не зовсім впевнений, що все правильно, тому можуть бути помилки.

— Xeoncross

1

Ви спробували реплікувати демонстраційний приклад з Matlab / R? Це має бути хорошим підтвердженням якості.

— Жан-Пол

7

Ось C ++ реалізація згладженого алгоритму z-score з цієї відповіді

std::vector<int> smoothedZScore(std::vector<float> input)
{   
    //lag 5 for the smoothing functions
    int lag = 5;
    //3.5 standard deviations for signal
    float threshold = 3.5;
    //between 0 and 1, where 1 is normal influence, 0.5 is half
    float influence = .5;

    if (input.size() <= lag + 2)
    {
        std::vector<int> emptyVec;
        return emptyVec;
    }

    //Initialise variables
    std::vector<int> signals(input.size(), 0.0);
    std::vector<float> filteredY(input.size(), 0.0);
    std::vector<float> avgFilter(input.size(), 0.0);
    std::vector<float> stdFilter(input.size(), 0.0);
    std::vector<float> subVecStart(input.begin(), input.begin() + lag);
    avgFilter[lag] = mean(subVecStart);
    stdFilter[lag] = stdDev(subVecStart);

    for (size_t i = lag + 1; i < input.size(); i++)
    {
        if (std::abs(input[i] - avgFilter[i - 1]) > threshold * stdFilter[i - 1])
        {
            if (input[i] > avgFilter[i - 1])
            {
                signals[i] = 1; //# Positive signal
            }
            else
            {
                signals[i] = -1; //# Negative signal
            }
            //Make influence lower
            filteredY[i] = influence* input[i] + (1 - influence) * filteredY[i - 1];
        }
        else
        {
            signals[i] = 0; //# No signal
            filteredY[i] = input[i];
        }
        //Adjust the filters
        std::vector<float> subVec(filteredY.begin() + i - lag, filteredY.begin() + i);
        avgFilter[i] = mean(subVec);
        stdFilter[i] = stdDev(subVec);
    }
    return signals;
}

— брад
джерело

2

Caveat: Ця реалізація насправді не забезпечує метод обчислення середнього та стандартного відхилень. Для C ++ 11, простий метод можна знайти тут: stackoverflow.com/a/12405793/3250829

— rayryeng

6

Ця проблема схожа на ту, з якою я стикався в курсі гібридних / вбудованих систем, але це було пов'язано з виявленням несправностей, коли вхід від датчика шумно. Ми використовували фільтр Калмана для оцінки / прогнозування прихованого стану системи, потім використовували статистичний аналіз для визначення ймовірності того, що сталася несправність . Ми працювали з лінійними системами, але існують нелінійні варіанти. Я пам’ятаю, що підхід був напрочуд адаптивним, але він вимагав моделі динаміки системи.

— Петро Г
джерело

Фільтр Калмана цікавий, але я не можу знайти алгоритм, що застосовується для моєї мети. Я дуже високо ціную відповідь, і я загляну в такі документи з пікових виявлень, як ця, щоб побачити, чи можу я навчитися будь-якому з алгоритмів. Дякую!

— Жан-Пол

6

Впровадження C ++

#include <iostream>
#include <vector>
#include <algorithm>
#include <unordered_map>
#include <cmath>
#include <iterator>
#include <numeric>

using namespace std;

typedef long double ld;
typedef unsigned int uint;
typedef std::vector<ld>::iterator vec_iter_ld;

/**
 * Overriding the ostream operator for pretty printing vectors.
 */
template<typename T>
std::ostream &operator<<(std::ostream &os, std::vector<T> vec) {
    os << "[";
    if (vec.size() != 0) {
        std::copy(vec.begin(), vec.end() - 1, std::ostream_iterator<T>(os, " "));
        os << vec.back();
    }
    os << "]";
    return os;
}

/**
 * This class calculates mean and standard deviation of a subvector.
 * This is basically stats computation of a subvector of a window size qual to "lag".
 */
class VectorStats {
public:
    /**
     * Constructor for VectorStats class.
     *
     * @param start - This is the iterator position of the start of the window,
     * @param end   - This is the iterator position of the end of the window,
     */
    VectorStats(vec_iter_ld start, vec_iter_ld end) {
        this->start = start;
        this->end = end;
        this->compute();
    }

    /**
     * This method calculates the mean and standard deviation using STL function.
     * This is the Two-Pass implementation of the Mean & Variance calculation.
     */
    void compute() {
        ld sum = std::accumulate(start, end, 0.0);
        uint slice_size = std::distance(start, end);
        ld mean = sum / slice_size;
        std::vector<ld> diff(slice_size);
        std::transform(start, end, diff.begin(), [mean](ld x) { return x - mean; });
        ld sq_sum = std::inner_product(diff.begin(), diff.end(), diff.begin(), 0.0);
        ld std_dev = std::sqrt(sq_sum / slice_size);

        this->m1 = mean;
        this->m2 = std_dev;
    }

    ld mean() {
        return m1;
    }

    ld standard_deviation() {
        return m2;
    }

private:
    vec_iter_ld start;
    vec_iter_ld end;
    ld m1;
    ld m2;
};

/**
 * This is the implementation of the Smoothed Z-Score Algorithm.
 * This is direction translation of https://stackoverflow.com/a/22640362/1461896.
 *
 * @param input - input signal
 * @param lag - the lag of the moving window
 * @param threshold - the z-score at which the algorithm signals
 * @param influence - the influence (between 0 and 1) of new signals on the mean and standard deviation
 * @return a hashmap containing the filtered signal and corresponding mean and standard deviation.
 */
unordered_map<string, vector<ld>> z_score_thresholding(vector<ld> input, int lag, ld threshold, ld influence) {
    unordered_map<string, vector<ld>> output;

    uint n = (uint) input.size();
    vector<ld> signals(input.size());
    vector<ld> filtered_input(input.begin(), input.end());
    vector<ld> filtered_mean(input.size());
    vector<ld> filtered_stddev(input.size());

    VectorStats lag_subvector_stats(input.begin(), input.begin() + lag);
    filtered_mean[lag - 1] = lag_subvector_stats.mean();
    filtered_stddev[lag - 1] = lag_subvector_stats.standard_deviation();

    for (int i = lag; i < n; i++) {
        if (abs(input[i] - filtered_mean[i - 1]) > threshold * filtered_stddev[i - 1]) {
            signals[i] = (input[i] > filtered_mean[i - 1]) ? 1.0 : -1.0;
            filtered_input[i] = influence * input[i] + (1 - influence) * filtered_input[i - 1];
        } else {
            signals[i] = 0.0;
            filtered_input[i] = input[i];
        }
        VectorStats lag_subvector_stats(filtered_input.begin() + (i - lag), filtered_input.begin() + i);
        filtered_mean[i] = lag_subvector_stats.mean();
        filtered_stddev[i] = lag_subvector_stats.standard_deviation();
    }

    output["signals"] = signals;
    output["filtered_mean"] = filtered_mean;
    output["filtered_stddev"] = filtered_stddev;

    return output;
};

int main() {
    vector<ld> input = {1.0, 1.0, 1.1, 1.0, 0.9, 1.0, 1.0, 1.1, 1.0, 0.9, 1.0, 1.1, 1.0, 1.0, 0.9, 1.0, 1.0, 1.1, 1.0,
                        1.0, 1.0, 1.0, 1.1, 0.9, 1.0, 1.1, 1.0, 1.0, 0.9, 1.0, 1.1, 1.0, 1.0, 1.1, 1.0, 0.8, 0.9, 1.0,
                        1.2, 0.9, 1.0, 1.0, 1.1, 1.2, 1.0, 1.5, 1.0, 3.0, 2.0, 5.0, 3.0, 2.0, 1.0, 1.0, 1.0, 0.9, 1.0,
                        1.0, 3.0, 2.6, 4.0, 3.0, 3.2, 2.0, 1.0, 1.0, 0.8, 4.0, 4.0, 2.0, 2.5, 1.0, 1.0, 1.0};

    int lag = 30;
    ld threshold = 5.0;
    ld influence = 0.0;
    unordered_map<string, vector<ld>> output = z_score_thresholding(input, lag, threshold, influence);
    cout << output["signals"] << endl;
}

— Анімеш Панді
джерело

6

Виходячи із запропонованого рішення @ Жана-Поля, я реалізував його алгоритм у C #

public class ZScoreOutput
{
    public List<double> input;
    public List<int> signals;
    public List<double> avgFilter;
    public List<double> filtered_stddev;
}

public static class ZScore
{
    public static ZScoreOutput StartAlgo(List<double> input, int lag, double threshold, double influence)
    {
        // init variables!
        int[] signals = new int[input.Count];
        double[] filteredY = new List<double>(input).ToArray();
        double[] avgFilter = new double[input.Count];
        double[] stdFilter = new double[input.Count];

        var initialWindow = new List<double>(filteredY).Skip(0).Take(lag).ToList();

        avgFilter[lag - 1] = Mean(initialWindow);
        stdFilter[lag - 1] = StdDev(initialWindow);

        for (int i = lag; i < input.Count; i++)
        {
            if (Math.Abs(input[i] - avgFilter[i - 1]) > threshold * stdFilter[i - 1])
            {
                signals[i] = (input[i] > avgFilter[i - 1]) ? 1 : -1;
                filteredY[i] = influence * input[i] + (1 - influence) * filteredY[i - 1];
            }
            else
            {
                signals[i] = 0;
                filteredY[i] = input[i];
            }

            // Update rolling average and deviation
            var slidingWindow = new List<double>(filteredY).Skip(i - lag).Take(lag+1).ToList();

            var tmpMean = Mean(slidingWindow);
            var tmpStdDev = StdDev(slidingWindow);

            avgFilter[i] = Mean(slidingWindow);
            stdFilter[i] = StdDev(slidingWindow);
        }

        // Copy to convenience class 
        var result = new ZScoreOutput();
        result.input = input;
        result.avgFilter       = new List<double>(avgFilter);
        result.signals         = new List<int>(signals);
        result.filtered_stddev = new List<double>(stdFilter);

        return result;
    }

    private static double Mean(List<double> list)
    {
        // Simple helper function! 
        return list.Average();
    }

    private static double StdDev(List<double> values)
    {
        double ret = 0;
        if (values.Count() > 0)
        {
            double avg = values.Average();
            double sum = values.Sum(d => Math.Pow(d - avg, 2));
            ret = Math.Sqrt((sum) / (values.Count() - 1));
        }
        return ret;
    }
}

Приклад використання:

var input = new List<double> {1.0, 1.0, 1.1, 1.0, 0.9, 1.0, 1.0, 1.1, 1.0, 0.9, 1.0,
    1.1, 1.0, 1.0, 0.9, 1.0, 1.0, 1.1, 1.0, 1.0, 1.0, 1.0, 1.1, 0.9, 1.0, 1.1, 1.0, 1.0, 0.9,
    1.0, 1.1, 1.0, 1.0, 1.1, 1.0, 0.8, 0.9, 1.0, 1.2, 0.9, 1.0, 1.0, 1.1, 1.2, 1.0, 1.5, 1.0,
    3.0, 2.0, 5.0, 3.0, 2.0, 1.0, 1.0, 1.0, 0.9, 1.0, 1.0, 3.0, 2.6, 4.0, 3.0, 3.2, 2.0, 1.0,
    1.0, 0.8, 4.0, 4.0, 2.0, 2.5, 1.0, 1.0, 1.0};

int lag = 30;
double threshold = 5.0;
double influence = 0.0;

var output = ZScore.StartAlgo(input, lag, threshold, influence);

— Океанський аероп
джерело

1

Гей @ Жан-Пол. Ура. Так, я перевірив вихід на вашу R-версію, щоб переконатися, що він відповідає. Ще раз дякую за ваше вирішення цієї проблеми.

— Ocean Airdrop

Привіт, я думаю, що в цьому коді є помилка, у методі StdDev ви берете значення.Count () - 1, чи варто покладатися на -1? Я думаю, ви хотіли б кількість елементів, і саме це ви отримаєте від значень.Count ().

— Віктор

1

Хм .. Добре місце. Хоча я спочатку переніс алгоритм на C #, я ніколи не закінчив його використовувати. Я, мабуть, замінив усю цю функцію викликом до нут-бібліотеки MathNet. "Install-Package MathNet.Numerics" Він має вбудовані функції для PopulationStandardDeviation () та StandardDeviation (); напр. var населенняStdDev = новий Список <подвійний> (1,2,3,4) .PopulationStandardDeviation (); var sampleStdDev = новий Список <double> (1,2,3,4) .StandardDeviation ();

— Ocean

6

Ось C-реалізація згладженої Z-шкали @ Жана-Поля для мікроконтролера Arduino, яка використовується для зчитування показань акселерометра та вирішення, чи напрямок удару відбувся зліва чи справа. Це дуже добре, оскільки цей пристрій повертає відскочений сигнал. Ось цей вхід до цього алгоритму виявлення піку від пристрою - показує вплив праворуч, а потім удар зліва. Ви можете побачити початковий сплеск, а потім коливання датчика.

#include <stdio.h>
#include <math.h>
#include <string.h>


#define SAMPLE_LENGTH 1000

float stddev(float data[], int len);
float mean(float data[], int len);
void thresholding(float y[], int signals[], int lag, float threshold, float influence);


void thresholding(float y[], int signals[], int lag, float threshold, float influence) {
    memset(signals, 0, sizeof(float) * SAMPLE_LENGTH);
    float filteredY[SAMPLE_LENGTH];
    memcpy(filteredY, y, sizeof(float) * SAMPLE_LENGTH);
    float avgFilter[SAMPLE_LENGTH];
    float stdFilter[SAMPLE_LENGTH];

    avgFilter[lag - 1] = mean(y, lag);
    stdFilter[lag - 1] = stddev(y, lag);

    for (int i = lag; i < SAMPLE_LENGTH; i++) {
        if (fabsf(y[i] - avgFilter[i-1]) > threshold * stdFilter[i-1]) {
            if (y[i] > avgFilter[i-1]) {
                signals[i] = 1;
            } else {
                signals[i] = -1;
            }
            filteredY[i] = influence * y[i] + (1 - influence) * filteredY[i-1];
        } else {
            signals[i] = 0;
        }
        avgFilter[i] = mean(filteredY + i-lag, lag);
        stdFilter[i] = stddev(filteredY + i-lag, lag);
    }
}

float mean(float data[], int len) {
    float sum = 0.0, mean = 0.0;

    int i;
    for(i=0; i<len; ++i) {
        sum += data[i];
    }

    mean = sum/len;
    return mean;


}

float stddev(float data[], int len) {
    float the_mean = mean(data, len);
    float standardDeviation = 0.0;

    int i;
    for(i=0; i<len; ++i) {
        standardDeviation += pow(data[i] - the_mean, 2);
    }

    return sqrt(standardDeviation/len);
}

int main() {
    printf("Hello, World!\n");
    int lag = 100;
    float threshold = 5;
    float influence = 0;
    float y[]=  {1,1,1.1,1,0.9,1,1,1.1,1,0.9,1,1.1,1,1,0.9,1,1,1.1,1,1,1,1,1.1,0.9,1,1.1,1,1,0.9,
  ....
1,1.1,1,1,1.1,1,0.8,0.9,1,1.2,0.9,1,1,1.1,1.2,1,1.5,1,3,2,5,3,2,1,1,1,0.9,1,1,3,       2.6,4,3,3.2,2,1,1,0.8,4,4,2,2.5,1,1,1,1.2,1,1.5,1,3,2,5,3,2,1,1,1,0.9,1,1,3,
       2.6,4,3,3.2,2,1,1,0.8,4,4,2,2.5,1,1,1}

    int signal[SAMPLE_LENGTH];

    thresholding(y, signal,  lag, threshold, influence);

    return 0;
}

Її результат з впливом = 0

Не великий, але тут з впливом = 1

що дуже добре.

— DavidC
джерело

5

Ось реальна реалізація Java на основі відповіді Groovy, опублікованої раніше. (Я знаю, що вже розміщені реалізації Groovy та Kotlin, але для когось, як я, хто лише зробив Java, справді складно зрозуміти, як конвертувати між іншими мовами та Java).

(Результати збігаються з графіками інших людей)

Реалізація алгоритму

import java.util.ArrayList;
import java.util.Collections;
import java.util.HashMap;
import java.util.List;

import org.apache.commons.math3.stat.descriptive.SummaryStatistics;

public class SignalDetector {

    public HashMap<String, List> analyzeDataForSignals(List<Double> data, int lag, Double threshold, Double influence) {

        // init stats instance
        SummaryStatistics stats = new SummaryStatistics();

        // the results (peaks, 1 or -1) of our algorithm
        List<Integer> signals = new ArrayList<Integer>(Collections.nCopies(data.size(), 0));

        // filter out the signals (peaks) from our original list (using influence arg)
        List<Double> filteredData = new ArrayList<Double>(data);

        // the current average of the rolling window
        List<Double> avgFilter = new ArrayList<Double>(Collections.nCopies(data.size(), 0.0d));

        // the current standard deviation of the rolling window
        List<Double> stdFilter = new ArrayList<Double>(Collections.nCopies(data.size(), 0.0d));

        // init avgFilter and stdFilter
        for (int i = 0; i < lag; i++) {
            stats.addValue(data.get(i));
        }
        avgFilter.set(lag - 1, stats.getMean());
        stdFilter.set(lag - 1, Math.sqrt(stats.getPopulationVariance())); // getStandardDeviation() uses sample variance
        stats.clear();

        // loop input starting at end of rolling window
        for (int i = lag; i < data.size(); i++) {

            // if the distance between the current value and average is enough standard deviations (threshold) away
            if (Math.abs((data.get(i) - avgFilter.get(i - 1))) > threshold * stdFilter.get(i - 1)) {

                // this is a signal (i.e. peak), determine if it is a positive or negative signal
                if (data.get(i) > avgFilter.get(i - 1)) {
                    signals.set(i, 1);
                } else {
                    signals.set(i, -1);
                }

                // filter this signal out using influence
                filteredData.set(i, (influence * data.get(i)) + ((1 - influence) * filteredData.get(i - 1)));
            } else {
                // ensure this signal remains a zero
                signals.set(i, 0);
                // ensure this value is not filtered
                filteredData.set(i, data.get(i));
            }

            // update rolling average and deviation
            for (int j = i - lag; j < i; j++) {
                stats.addValue(filteredData.get(j));
            }
            avgFilter.set(i, stats.getMean());
            stdFilter.set(i, Math.sqrt(stats.getPopulationVariance()));
            stats.clear();
        }

        HashMap<String, List> returnMap = new HashMap<String, List>();
        returnMap.put("signals", signals);
        returnMap.put("filteredData", filteredData);
        returnMap.put("avgFilter", avgFilter);
        returnMap.put("stdFilter", stdFilter);

        return returnMap;

    } // end
}

Основний метод

import java.text.DecimalFormat;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.List;

public class Main {

    public static void main(String[] args) throws Exception {
        DecimalFormat df = new DecimalFormat("#0.000");

        ArrayList<Double> data = new ArrayList<Double>(Arrays.asList(1d, 1d, 1.1d, 1d, 0.9d, 1d, 1d, 1.1d, 1d, 0.9d, 1d,
                1.1d, 1d, 1d, 0.9d, 1d, 1d, 1.1d, 1d, 1d, 1d, 1d, 1.1d, 0.9d, 1d, 1.1d, 1d, 1d, 0.9d, 1d, 1.1d, 1d, 1d,
                1.1d, 1d, 0.8d, 0.9d, 1d, 1.2d, 0.9d, 1d, 1d, 1.1d, 1.2d, 1d, 1.5d, 1d, 3d, 2d, 5d, 3d, 2d, 1d, 1d, 1d,
                0.9d, 1d, 1d, 3d, 2.6d, 4d, 3d, 3.2d, 2d, 1d, 1d, 0.8d, 4d, 4d, 2d, 2.5d, 1d, 1d, 1d));

        SignalDetector signalDetector = new SignalDetector();
        int lag = 30;
        double threshold = 5;
        double influence = 0;

        HashMap<String, List> resultsMap = signalDetector.analyzeDataForSignals(data, lag, threshold, influence);
        // print algorithm params
        System.out.println("lag: " + lag + "\t\tthreshold: " + threshold + "\t\tinfluence: " + influence);

        System.out.println("Data size: " + data.size());
        System.out.println("Signals size: " + resultsMap.get("signals").size());

        // print data
        System.out.print("Data:\t\t");
        for (double d : data) {
            System.out.print(df.format(d) + "\t");
        }
        System.out.println();

        // print signals
        System.out.print("Signals:\t");
        List<Integer> signalsList = resultsMap.get("signals");
        for (int i : signalsList) {
            System.out.print(df.format(i) + "\t");
        }
        System.out.println();

        // print filtered data
        System.out.print("Filtered Data:\t");
        List<Double> filteredDataList = resultsMap.get("filteredData");
        for (double d : filteredDataList) {
            System.out.print(df.format(d) + "\t");
        }
        System.out.println();

        // print running average
        System.out.print("Avg Filter:\t");
        List<Double> avgFilterList = resultsMap.get("avgFilter");
        for (double d : avgFilterList) {
            System.out.print(df.format(d) + "\t");
        }
        System.out.println();

        // print running std
        System.out.print("Std filter:\t");
        List<Double> stdFilterList = resultsMap.get("stdFilter");
        for (double d : stdFilterList) {
            System.out.print(df.format(d) + "\t");
        }
        System.out.println();

        System.out.println();
        for (int i = 0; i < signalsList.size(); i++) {
            if (signalsList.get(i) != 0) {
                System.out.println("Point " + i + " gave signal " + signalsList.get(i));
            }
        }
    }
}

Результати

lag: 30     threshold: 5.0      influence: 0.0
Data size: 74
Signals size: 74
Data:           1.000   1.000   1.100   1.000   0.900   1.000   1.000   1.100   1.000   0.900   1.000   1.100   1.000   1.000   0.900   1.000   1.000   1.100   1.000   1.000   1.000   1.000   1.100   0.900   1.000   1.100   1.000   1.000   0.900   1.000   1.100   1.000   1.000   1.100   1.000   0.800   0.900   1.000   1.200   0.900   1.000   1.000   1.100   1.200   1.000   1.500   1.000   3.000   2.000   5.000   3.000   2.000   1.000   1.000   1.000   0.900   1.000   1.000   3.000   2.600   4.000   3.000   3.200   2.000   1.000   1.000   0.800   4.000   4.000   2.000   2.500   1.000   1.000   1.000   
Signals:        0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   1.000   0.000   1.000   1.000   1.000   1.000   1.000   0.000   0.000   0.000   0.000   0.000   0.000   1.000   1.000   1.000   1.000   1.000   1.000   0.000   0.000   0.000   1.000   1.000   1.000   1.000   0.000   0.000   0.000   
Filtered Data:  1.000   1.000   1.100   1.000   0.900   1.000   1.000   1.100   1.000   0.900   1.000   1.100   1.000   1.000   0.900   1.000   1.000   1.100   1.000   1.000   1.000   1.000   1.100   0.900   1.000   1.100   1.000   1.000   0.900   1.000   1.100   1.000   1.000   1.100   1.000   0.800   0.900   1.000   1.200   0.900   1.000   1.000   1.100   1.200   1.000   1.000   1.000   1.000   1.000   1.000   1.000   1.000   1.000   1.000   1.000   0.900   1.000   1.000   1.000   1.000   1.000   1.000   1.000   1.000   1.000   1.000   0.800   0.800   0.800   0.800   0.800   1.000   1.000   1.000   
Avg Filter:     0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   1.003   1.003   1.007   1.007   1.003   1.007   1.010   1.003   1.000   0.997   1.003   1.003   1.003   1.000   1.003   1.010   1.013   1.013   1.013   1.010   1.010   1.010   1.010   1.010   1.007   1.010   1.010   1.003   1.003   1.003   1.007   1.007   1.003   1.003   1.003   1.000   1.000   1.007   1.003   0.997   0.983   0.980   0.973   0.973   0.970   
Std filter:     0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.000   0.060   0.060   0.063   0.063   0.060   0.063   0.060   0.071   0.073   0.071   0.080   0.080   0.080   0.077   0.080   0.087   0.085   0.085   0.085   0.083   0.083   0.083   0.083   0.083   0.081   0.079   0.079   0.080   0.080   0.080   0.077   0.077   0.075   0.075   0.075   0.073   0.073   0.063   0.071   0.080   0.078   0.083   0.089   0.089   0.086   

Point 45 gave signal 1
Point 47 gave signal 1
Point 48 gave signal 1
Point 49 gave signal 1
Point 50 gave signal 1
Point 51 gave signal 1
Point 58 gave signal 1
Point 59 gave signal 1
Point 60 gave signal 1
Point 61 gave signal 1
Point 62 gave signal 1
Point 63 gave signal 1
Point 67 gave signal 1
Point 68 gave signal 1
Point 69 gave signal 1
Point 70 gave signal 1

— таканува15
джерело

5

Додаток 1 до оригінальної відповіді: `Matlab`та `R`перекладів

Код Matlab

function [signals,avgFilter,stdFilter] = ThresholdingAlgo(y,lag,threshold,influence)
% Initialise signal results
signals = zeros(length(y),1);
% Initialise filtered series
filteredY = y(1:lag+1);
% Initialise filters
avgFilter(lag+1,1) = mean(y(1:lag+1));
stdFilter(lag+1,1) = std(y(1:lag+1));
% Loop over all datapoints y(lag+2),...,y(t)
for i=lag+2:length(y)
    % If new value is a specified number of deviations away
    if abs(y(i)-avgFilter(i-1)) > threshold*stdFilter(i-1)
        if y(i) > avgFilter(i-1)
            % Positive signal
            signals(i) = 1;
        else
            % Negative signal
            signals(i) = -1;
        end
        % Make influence lower
        filteredY(i) = influence*y(i)+(1-influence)*filteredY(i-1);
    else
        % No signal
        signals(i) = 0;
        filteredY(i) = y(i);
    end
    % Adjust the filters
    avgFilter(i) = mean(filteredY(i-lag:i));
    stdFilter(i) = std(filteredY(i-lag:i));
end
% Done, now return results
end

Приклад:

% Data
y = [1 1 1.1 1 0.9 1 1 1.1 1 0.9 1 1.1 1 1 0.9 1 1 1.1 1 1,...
    1 1 1.1 0.9 1 1.1 1 1 0.9 1 1.1 1 1 1.1 1 0.8 0.9 1 1.2 0.9 1,...
    1 1.1 1.2 1 1.5 1 3 2 5 3 2 1 1 1 0.9 1,...
    1 3 2.6 4 3 3.2 2 1 1 0.8 4 4 2 2.5 1 1 1];

% Settings
lag = 30;
threshold = 5;
influence = 0;

% Get results
[signals,avg,dev] = ThresholdingAlgo(y,lag,threshold,influence);

figure; subplot(2,1,1); hold on;
x = 1:length(y); ix = lag+1:length(y);
area(x(ix),avg(ix)+threshold*dev(ix),'FaceColor',[0.9 0.9 0.9],'EdgeColor','none');
area(x(ix),avg(ix)-threshold*dev(ix),'FaceColor',[1 1 1],'EdgeColor','none');
plot(x(ix),avg(ix),'LineWidth',1,'Color','cyan','LineWidth',1.5);
plot(x(ix),avg(ix)+threshold*dev(ix),'LineWidth',1,'Color','green','LineWidth',1.5);
plot(x(ix),avg(ix)-threshold*dev(ix),'LineWidth',1,'Color','green','LineWidth',1.5);
plot(1:length(y),y,'b');
subplot(2,1,2);
stairs(signals,'r','LineWidth',1.5); ylim([-1.5 1.5]);

R код

ThresholdingAlgo <- function(y,lag,threshold,influence) {
  signals <- rep(0,length(y))
  filteredY <- y[0:lag]
  avgFilter <- NULL
  stdFilter <- NULL
  avgFilter[lag] <- mean(y[0:lag], na.rm=TRUE)
  stdFilter[lag] <- sd(y[0:lag], na.rm=TRUE)
  for (i in (lag+1):length(y)){
    if (abs(y[i]-avgFilter[i-1]) > threshold*stdFilter[i-1]) {
      if (y[i] > avgFilter[i-1]) {
        signals[i] <- 1;
      } else {
        signals[i] <- -1;
      }
      filteredY[i] <- influence*y[i]+(1-influence)*filteredY[i-1]
    } else {
      signals[i] <- 0
      filteredY[i] <- y[i]
    }
    avgFilter[i] <- mean(filteredY[(i-lag):i], na.rm=TRUE)
    stdFilter[i] <- sd(filteredY[(i-lag):i], na.rm=TRUE)
  }
  return(list("signals"=signals,"avgFilter"=avgFilter,"stdFilter"=stdFilter))
}

Приклад:

# Data
y <- c(1,1,1.1,1,0.9,1,1,1.1,1,0.9,1,1.1,1,1,0.9,1,1,1.1,1,1,1,1,1.1,0.9,1,1.1,1,1,0.9,
       1,1.1,1,1,1.1,1,0.8,0.9,1,1.2,0.9,1,1,1.1,1.2,1,1.5,1,3,2,5,3,2,1,1,1,0.9,1,1,3,
       2.6,4,3,3.2,2,1,1,0.8,4,4,2,2.5,1,1,1)

lag       <- 30
threshold <- 5
influence <- 0

# Run algo with lag = 30, threshold = 5, influence = 0
result <- ThresholdingAlgo(y,lag,threshold,influence)

# Plot result
par(mfrow = c(2,1),oma = c(2,2,0,0) + 0.1,mar = c(0,0,2,1) + 0.2)
plot(1:length(y),y,type="l",ylab="",xlab="") 
lines(1:length(y),result$avgFilter,type="l",col="cyan",lwd=2)
lines(1:length(y),result$avgFilter+threshold*result$stdFilter,type="l",col="green",lwd=2)
lines(1:length(y),result$avgFilter-threshold*result$stdFilter,type="l",col="green",lwd=2)
plot(result$signals,type="S",col="red",ylab="",xlab="",ylim=c(-1.5,1.5),lwd=2)

Цей код (обидві мови) дасть такий результат для даних початкового запитання:

Додаток 2 до оригінальної відповіді: `Matlab`демонстраційний код

(натисніть, щоб створити дані)

function [] = RobustThresholdingDemo()

%% SPECIFICATIONS
lag         = 5;       % lag for the smoothing
threshold   = 3.5;     % number of st.dev. away from the mean to signal
influence   = 0.3;     % when signal: how much influence for new data? (between 0 and 1)
                       % 1 is normal influence, 0.5 is half      
%% START DEMO
DemoScreen(30,lag,threshold,influence);

end

function [signals,avgFilter,stdFilter] = ThresholdingAlgo(y,lag,threshold,influence)
signals = zeros(length(y),1);
filteredY = y(1:lag+1);
avgFilter(lag+1,1) = mean(y(1:lag+1));
stdFilter(lag+1,1) = std(y(1:lag+1));
for i=lag+2:length(y)
    if abs(y(i)-avgFilter(i-1)) > threshold*stdFilter(i-1)
        if y(i) > avgFilter(i-1)
            signals(i) = 1;
        else
            signals(i) = -1;
        end
        filteredY(i) = influence*y(i)+(1-influence)*filteredY(i-1);
    else
        signals(i) = 0;
        filteredY(i) = y(i);
    end
    avgFilter(i) = mean(filteredY(i-lag:i));
    stdFilter(i) = std(filteredY(i-lag:i));
end
end

% Demo screen function
function [] = DemoScreen(n,lag,threshold,influence)
figure('Position',[200 100,1000,500]);
subplot(2,1,1);
title(sprintf(['Draw data points (%.0f max)      [settings: lag = %.0f, '...
    'threshold = %.2f, influence = %.2f]'],n,lag,threshold,influence));
ylim([0 5]); xlim([0 50]);
H = gca; subplot(2,1,1);
set(H, 'YLimMode', 'manual'); set(H, 'XLimMode', 'manual');
set(H, 'YLim', get(H,'YLim')); set(H, 'XLim', get(H,'XLim'));
xg = []; yg = [];
for i=1:n
    try
        [xi,yi] = ginput(1);
    catch
        return;
    end
    xg = [xg xi]; yg = [yg yi];
    if i == 1
        subplot(2,1,1); hold on;
        plot(H, xg(i),yg(i),'r.'); 
        text(xg(i),yg(i),num2str(i),'FontSize',7);
    end
    if length(xg) > lag
        [signals,avg,dev] = ...
            ThresholdingAlgo(yg,lag,threshold,influence);
        area(xg(lag+1:end),avg(lag+1:end)+threshold*dev(lag+1:end),...
            'FaceColor',[0.9 0.9 0.9],'EdgeColor','none');
        area(xg(lag+1:end),avg(lag+1:end)-threshold*dev(lag+1:end),...
            'FaceColor',[1 1 1],'EdgeColor','none');
        plot(xg(lag+1:end),avg(lag+1:end),'LineWidth',1,'Color','cyan');
        plot(xg(lag+1:end),avg(lag+1:end)+threshold*dev(lag+1:end),...
            'LineWidth',1,'Color','green');
        plot(xg(lag+1:end),avg(lag+1:end)-threshold*dev(lag+1:end),...
            'LineWidth',1,'Color','green');
        subplot(2,1,2); hold on; title('Signal output');
        stairs(xg(lag+1:end),signals(lag+1:end),'LineWidth',2,'Color','blue');
        ylim([-2 2]); xlim([0 50]); hold off;
    end
    subplot(2,1,1); hold on;
    for j=2:i
        plot(xg([j-1:j]),yg([j-1:j]),'r'); plot(H,xg(j),yg(j),'r.');
        text(xg(j),yg(j),num2str(j),'FontSize',7);
    end
end
end

— Жан-Пол
джерело

4

Ось моя спроба створити рішення Ruby для "Згладженого z-score algo" з прийнятої відповіді:

module ThresholdingAlgoMixin
  def mean(array)
    array.reduce(&:+) / array.size.to_f
  end

  def stddev(array)
    array_mean = mean(array)
    Math.sqrt(array.reduce(0.0) { |a, b| a.to_f + ((b.to_f - array_mean) ** 2) } / array.size.to_f)
  end

  def thresholding_algo(lag: 5, threshold: 3.5, influence: 0.5)
    return nil if size < lag * 2
    Array.new(size, 0).tap do |signals|
      filtered = Array.new(self)

      initial_slice = take(lag)
      avg_filter = Array.new(lag - 1, 0.0) + [mean(initial_slice)]
      std_filter = Array.new(lag - 1, 0.0) + [stddev(initial_slice)]
      (lag..size-1).each do |idx|
        prev = idx - 1
        if (fetch(idx) - avg_filter[prev]).abs > threshold * std_filter[prev]
          signals[idx] = fetch(idx) > avg_filter[prev] ? 1 : -1
          filtered[idx] = (influence * fetch(idx)) + ((1-influence) * filtered[prev])
        end

        filtered_slice = filtered[idx-lag..prev]
        avg_filter[idx] = mean(filtered_slice)
        std_filter[idx] = stddev(filtered_slice)
      end
    end
  end
end

І приклад використання:

test_data = [
  1, 1, 1.1, 1, 0.9, 1, 1, 1.1, 1, 0.9, 1, 1.1, 1, 1, 0.9, 1,
  1, 1.1, 1, 1, 1, 1, 1.1, 0.9, 1, 1.1, 1, 1, 0.9, 1, 1.1, 1,
  1, 1.1, 1, 0.8, 0.9, 1, 1.2, 0.9, 1, 1, 1.1, 1.2, 1, 1.5,
  1, 3, 2, 5, 3, 2, 1, 1, 1, 0.9, 1, 1, 3, 2.6, 4, 3, 3.2, 2,
  1, 1, 0.8, 4, 4, 2, 2.5, 1, 1, 1
].extend(ThresholdingAlgoMixin)

puts test_data.thresholding_algo.inspect

# Output: [
#   0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#   0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, 0, 0, 0,
#   0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1,
#   1, 1, 0, 0, 0, -1, -1, 0, 0, 0, 0, 0, 0, 0, 0
# ]

— Кіммо Лехто
джерело

Дивовижний, дякую за обмін! Я додам вас до списку. Переконайтеся, що для додатків у режимі реального часу ви створюєте окрему функцію для оновлення сигналів, коли надходить нова точка даних (замість того, щоб циклічно фіксувати всі точки даних).

— Жан-Пол

4

Ітераційна версія в python / numpy для відповіді https://stackoverflow.com/a/22640362/6029703 тут. Цей код швидше, ніж обчислення середнього та стандартного відхилень з кожним відставанням для великих даних (100000+).

def peak_detection_smoothed_zscore_v2(x, lag, threshold, influence):
    '''
    iterative smoothed z-score algorithm
    Implementation of algorithm from https://stackoverflow.com/a/22640362/6029703
    '''
    import numpy as np
    labels = np.zeros(len(x))
    filtered_y = np.array(x)
    avg_filter = np.zeros(len(x))
    std_filter = np.zeros(len(x))
    var_filter = np.zeros(len(x))

    avg_filter[lag - 1] = np.mean(x[0:lag])
    std_filter[lag - 1] = np.std(x[0:lag])
    var_filter[lag - 1] = np.var(x[0:lag])
    for i in range(lag, len(x)):
        if abs(x[i] - avg_filter[i - 1]) > threshold * std_filter[i - 1]:
            if x[i] > avg_filter[i - 1]:
                labels[i] = 1
            else:
                labels[i] = -1
            filtered_y[i] = influence * x[i] + (1 - influence) * filtered_y[i - 1]
        else:
            labels[i] = 0
            filtered_y[i] = x[i]
        # update avg, var, std
        avg_filter[i] = avg_filter[i - 1] + 1. / lag * (filtered_y[i] - filtered_y[i - lag])
        var_filter[i] = var_filter[i - 1] + 1. / lag * ((filtered_y[i] - avg_filter[i - 1]) ** 2 - (
            filtered_y[i - lag] - avg_filter[i - 1]) ** 2 - (filtered_y[i] - filtered_y[i - lag]) ** 2 / lag)
        std_filter[i] = np.sqrt(var_filter[i])

    return dict(signals=labels,
                avgFilter=avg_filter,
                stdFilter=std_filter)

— Транфер Уілл
джерело

4

Думав, я б забезпечив свою реалізацію алгоритму Юлією для інших. Суть можна знайти тут

using Statistics
using Plots
function SmoothedZscoreAlgo(y, lag, threshold, influence)
    # Julia implimentation of http://stackoverflow.com/a/22640362/6029703
    n = length(y)
    signals = zeros(n) # init signal results
    filteredY = copy(y) # init filtered series
    avgFilter = zeros(n) # init average filter
    stdFilter = zeros(n) # init std filter
    avgFilter[lag - 1] = mean(y[1:lag]) # init first value
    stdFilter[lag - 1] = std(y[1:lag]) # init first value

    for i in range(lag, stop=n-1)
        if abs(y[i] - avgFilter[i-1]) > threshold*stdFilter[i-1]
            if y[i] > avgFilter[i-1]
                signals[i] += 1 # postive signal
            else
                signals[i] += -1 # negative signal
            end
            # Make influence lower
            filteredY[i] = influence*y[i] + (1-influence)*filteredY[i-1]
        else
            signals[i] = 0
            filteredY[i] = y[i]
        end
        avgFilter[i] = mean(filteredY[i-lag+1:i])
        stdFilter[i] = std(filteredY[i-lag+1:i])
    end
    return (signals = signals, avgFilter = avgFilter, stdFilter = stdFilter)
end


# Data
y = [1,1,1.1,1,0.9,1,1,1.1,1,0.9,1,1.1,1,1,0.9,1,1,1.1,1,1,1,1,1.1,0.9,1,1.1,1,1,0.9,
       1,1.1,1,1,1.1,1,0.8,0.9,1,1.2,0.9,1,1,1.1,1.2,1,1.5,1,3,2,5,3,2,1,1,1,0.9,1,1,3,
       2.6,4,3,3.2,2,1,1,0.8,4,4,2,2.5,1,1,1]

# Settings: lag = 30, threshold = 5, influence = 0
lag = 30
threshold = 5
influence = 0

results = SmoothedZscoreAlgo(y, lag, threshold, influence)
upper_bound = results[:avgFilter] + threshold * results[:stdFilter]
lower_bound = results[:avgFilter] - threshold * results[:stdFilter]
x = 1:length(y)

yplot = plot(x,y,color="blue", label="Y",legend=:topleft)
yplot = plot!(x,upper_bound, color="green", label="Upper Bound",legend=:topleft)
yplot = plot!(x,results[:avgFilter], color="cyan", label="Average Filter",legend=:topleft)
yplot = plot!(x,lower_bound, color="green", label="Lower Bound",legend=:topleft)
signalplot = plot(x,results[:signals],color="red",label="Signals",legend=:topleft)
plot(yplot,signalplot,layout=(2,1),legend=:topleft)

— Метт Кемп
джерело

3

Ось Groovy (Java) реалізація згладженого алгоритму z-score ( див. Відповідь вище ).

/**
 * "Smoothed zero-score alogrithm" shamelessly copied from https://stackoverflow.com/a/22640362/6029703
 *  Uses a rolling mean and a rolling deviation (separate) to identify peaks in a vector
 *
 * @param y - The input vector to analyze
 * @param lag - The lag of the moving window (i.e. how big the window is)
 * @param threshold - The z-score at which the algorithm signals (i.e. how many standard deviations away from the moving mean a peak (or signal) is)
 * @param influence - The influence (between 0 and 1) of new signals on the mean and standard deviation (how much a peak (or signal) should affect other values near it)
 * @return - The calculated averages (avgFilter) and deviations (stdFilter), and the signals (signals)
 */

public HashMap<String, List<Object>> thresholdingAlgo(List<Double> y, Long lag, Double threshold, Double influence) {
    //init stats instance
    SummaryStatistics stats = new SummaryStatistics()

    //the results (peaks, 1 or -1) of our algorithm
    List<Integer> signals = new ArrayList<Integer>(Collections.nCopies(y.size(), 0))
    //filter out the signals (peaks) from our original list (using influence arg)
    List<Double> filteredY = new ArrayList<Double>(y)
    //the current average of the rolling window
    List<Double> avgFilter = new ArrayList<Double>(Collections.nCopies(y.size(), 0.0d))
    //the current standard deviation of the rolling window
    List<Double> stdFilter = new ArrayList<Double>(Collections.nCopies(y.size(), 0.0d))
    //init avgFilter and stdFilter
    (0..lag-1).each { stats.addValue(y[it as int]) }
    avgFilter[lag - 1 as int] = stats.getMean()
    stdFilter[lag - 1 as int] = Math.sqrt(stats.getPopulationVariance()) //getStandardDeviation() uses sample variance (not what we want)
    stats.clear()
    //loop input starting at end of rolling window
    (lag..y.size()-1).each { i ->
        //if the distance between the current value and average is enough standard deviations (threshold) away
        if (Math.abs((y[i as int] - avgFilter[i - 1 as int]) as Double) > threshold * stdFilter[i - 1 as int]) {
            //this is a signal (i.e. peak), determine if it is a positive or negative signal
            signals[i as int] = (y[i as int] > avgFilter[i - 1 as int]) ? 1 : -1
            //filter this signal out using influence
            filteredY[i as int] = (influence * y[i as int]) + ((1-influence) * filteredY[i - 1 as int])
        } else {
            //ensure this signal remains a zero
            signals[i as int] = 0
            //ensure this value is not filtered
            filteredY[i as int] = y[i as int]
        }
        //update rolling average and deviation
        (i - lag..i-1).each { stats.addValue(filteredY[it as int] as Double) }
        avgFilter[i as int] = stats.getMean()
        stdFilter[i as int] = Math.sqrt(stats.getPopulationVariance()) //getStandardDeviation() uses sample variance (not what we want)
        stats.clear()
    }

    return [
        signals  : signals,
        avgFilter: avgFilter,
        stdFilter: stdFilter
    ]
}

Нижче наводиться тест на тому ж наборі даних, який дає ті самі результати, що і вищевказана реалізація Python / numpy .

    // Data
    def y = [1d, 1d, 1.1d, 1d, 0.9d, 1d, 1d, 1.1d, 1d, 0.9d, 1d, 1.1d, 1d, 1d, 0.9d, 1d, 1d, 1.1d, 1d, 1d,
         1d, 1d, 1.1d, 0.9d, 1d, 1.1d, 1d, 1d, 0.9d, 1d, 1.1d, 1d, 1d, 1.1d, 1d, 0.8d, 0.9d, 1d, 1.2d, 0.9d, 1d,
         1d, 1.1d, 1.2d, 1d, 1.5d, 1d, 3d, 2d, 5d, 3d, 2d, 1d, 1d, 1d, 0.9d, 1d,
         1d, 3d, 2.6d, 4d, 3d, 3.2d, 2d, 1d, 1d, 0.8d, 4d, 4d, 2d, 2.5d, 1d, 1d, 1d]

    // Settings
    def lag = 30
    def threshold = 5
    def influence = 0


    def thresholdingResults = thresholdingAlgo((List<Double>) y, (Long) lag, (Double) threshold, (Double) influence)

    println y.size()
    println thresholdingResults.signals.size()
    println thresholdingResults.signals

    thresholdingResults.signals.eachWithIndex { x, idx ->
        if (x) {
            println y[idx]
        }
    }

— JoshuaCWebDeveloper
джерело

3

Ось (неідіоматична) версія Scala згладженого z-score алгоритму :

/**
  * Smoothed zero-score alogrithm shamelessly copied from https://stackoverflow.com/a/22640362/6029703
  * Uses a rolling mean and a rolling deviation (separate) to identify peaks in a vector
  *
  * @param y - The input vector to analyze
  * @param lag - The lag of the moving window (i.e. how big the window is)
  * @param threshold - The z-score at which the algorithm signals (i.e. how many standard deviations away from the moving mean a peak (or signal) is)
  * @param influence - The influence (between 0 and 1) of new signals on the mean and standard deviation (how much a peak (or signal) should affect other values near it)
  * @return - The calculated averages (avgFilter) and deviations (stdFilter), and the signals (signals)
  */
private def smoothedZScore(y: Seq[Double], lag: Int, threshold: Double, influence: Double): Seq[Int] = {
  val stats = new SummaryStatistics()

  // the results (peaks, 1 or -1) of our algorithm
  val signals = mutable.ArrayBuffer.fill(y.length)(0)

  // filter out the signals (peaks) from our original list (using influence arg)
  val filteredY = y.to[mutable.ArrayBuffer]

  // the current average of the rolling window
  val avgFilter = mutable.ArrayBuffer.fill(y.length)(0d)

  // the current standard deviation of the rolling window
  val stdFilter = mutable.ArrayBuffer.fill(y.length)(0d)

  // init avgFilter and stdFilter
  y.take(lag).foreach(s => stats.addValue(s))

  avgFilter(lag - 1) = stats.getMean
  stdFilter(lag - 1) = Math.sqrt(stats.getPopulationVariance) // getStandardDeviation() uses sample variance (not what we want)

  // loop input starting at end of rolling window
  y.zipWithIndex.slice(lag, y.length - 1).foreach {
    case (s: Double, i: Int) =>
      // if the distance between the current value and average is enough standard deviations (threshold) away
      if (Math.abs(s - avgFilter(i - 1)) > threshold * stdFilter(i - 1)) {
        // this is a signal (i.e. peak), determine if it is a positive or negative signal
        signals(i) = if (s > avgFilter(i - 1)) 1 else -1
        // filter this signal out using influence
        filteredY(i) = (influence * s) + ((1 - influence) * filteredY(i - 1))
      } else {
        // ensure this signal remains a zero
        signals(i) = 0
        // ensure this value is not filtered
        filteredY(i) = s
      }

      // update rolling average and deviation
      stats.clear()
      filteredY.slice(i - lag, i).foreach(s => stats.addValue(s))
      avgFilter(i) = stats.getMean
      stdFilter(i) = Math.sqrt(stats.getPopulationVariance) // getStandardDeviation() uses sample variance (not what we want)
  }

  println(y.length)
  println(signals.length)
  println(signals)

  signals.zipWithIndex.foreach {
    case(x: Int, idx: Int) =>
      if (x == 1) {
        println(idx + " " + y(idx))
      }
  }

  val data =
    y.zipWithIndex.map { case (s: Double, i: Int) => Map("x" -> i, "y" -> s, "name" -> "y", "row" -> "data") } ++
    avgFilter.zipWithIndex.map { case (s: Double, i: Int) => Map("x" -> i, "y" -> s, "name" -> "avgFilter", "row" -> "data") } ++
    avgFilter.zipWithIndex.map { case (s: Double, i: Int) => Map("x" -> i, "y" -> (s - threshold * stdFilter(i)), "name" -> "lower", "row" -> "data") } ++
    avgFilter.zipWithIndex.map { case (s: Double, i: Int) => Map("x" -> i, "y" -> (s + threshold * stdFilter(i)), "name" -> "upper", "row" -> "data") } ++
    signals.zipWithIndex.map { case (s: Int, i: Int) => Map("x" -> i, "y" -> s, "name" -> "signal", "row" -> "signal") }

  Vegas("Smoothed Z")
    .withData(data)
    .mark(Line)
    .encodeX("x", Quant)
    .encodeY("y", Quant)
    .encodeColor(
      field="name",
      dataType=Nominal
    )
    .encodeRow("row", Ordinal)
    .show

  return signals
}

Ось тест, який повертає ті самі результати, що й версії Python та Groovy:

val y = List(1d, 1d, 1.1d, 1d, 0.9d, 1d, 1d, 1.1d, 1d, 0.9d, 1d, 1.1d, 1d, 1d, 0.9d, 1d, 1d, 1.1d, 1d, 1d,
  1d, 1d, 1.1d, 0.9d, 1d, 1.1d, 1d, 1d, 0.9d, 1d, 1.1d, 1d, 1d, 1.1d, 1d, 0.8d, 0.9d, 1d, 1.2d, 0.9d, 1d,
  1d, 1.1d, 1.2d, 1d, 1.5d, 1d, 3d, 2d, 5d, 3d, 2d, 1d, 1d, 1d, 0.9d, 1d,
  1d, 3d, 2.6d, 4d, 3d, 3.2d, 2d, 1d, 1d, 0.8d, 4d, 4d, 2d, 2.5d, 1d, 1d, 1d)

val lag = 30
val threshold = 5d
val influence = 0d

smoothedZScore(y, lag, threshold, influence)

Тут є істота

— Майк Робертс
джерело

1 являє собою вершини, -1 являє собою долини.

— Майк Робертс

3

Мені було потрібно щось подібне в моєму проекті Android. Думав, що я можу дати реалізацію Котліна .

/**
* Smoothed zero-score alogrithm shamelessly copied from https://stackoverflow.com/a/22640362/6029703
* Uses a rolling mean and a rolling deviation (separate) to identify peaks in a vector
*
* @param y - The input vector to analyze
* @param lag - The lag of the moving window (i.e. how big the window is)
* @param threshold - The z-score at which the algorithm signals (i.e. how many standard deviations away from the moving mean a peak (or signal) is)
* @param influence - The influence (between 0 and 1) of new signals on the mean and standard deviation (how much a peak (or signal) should affect other values near it)
* @return - The calculated averages (avgFilter) and deviations (stdFilter), and the signals (signals)
*/
fun smoothedZScore(y: List<Double>, lag: Int, threshold: Double, influence: Double): Triple<List<Int>, List<Double>, List<Double>> {
    val stats = SummaryStatistics()
    // the results (peaks, 1 or -1) of our algorithm
    val signals = MutableList<Int>(y.size, { 0 })
    // filter out the signals (peaks) from our original list (using influence arg)
    val filteredY = ArrayList<Double>(y)
    // the current average of the rolling window
    val avgFilter = MutableList<Double>(y.size, { 0.0 })
    // the current standard deviation of the rolling window
    val stdFilter = MutableList<Double>(y.size, { 0.0 })
    // init avgFilter and stdFilter
    y.take(lag).forEach { s -> stats.addValue(s) }
    avgFilter[lag - 1] = stats.mean
    stdFilter[lag - 1] = Math.sqrt(stats.populationVariance) // getStandardDeviation() uses sample variance (not what we want)
    stats.clear()
    //loop input starting at end of rolling window
    (lag..y.size - 1).forEach { i ->
        //if the distance between the current value and average is enough standard deviations (threshold) away
        if (Math.abs(y[i] - avgFilter[i - 1]) > threshold * stdFilter[i - 1]) {
            //this is a signal (i.e. peak), determine if it is a positive or negative signal
            signals[i] = if (y[i] > avgFilter[i - 1]) 1 else -1
            //filter this signal out using influence
            filteredY[i] = (influence * y[i]) + ((1 - influence) * filteredY[i - 1])
        } else {
            //ensure this signal remains a zero
            signals[i] = 0
            //ensure this value is not filtered
            filteredY[i] = y[i]
        }
        //update rolling average and deviation
        (i - lag..i - 1).forEach { stats.addValue(filteredY[it]) }
        avgFilter[i] = stats.getMean()
        stdFilter[i] = Math.sqrt(stats.getPopulationVariance()) //getStandardDeviation() uses sample variance (not what we want)
        stats.clear()
    }
    return Triple(signals, avgFilter, stdFilter)
}

Приклад проекту з верифікаційними графіками можна знайти в github .

— леонардкрамер
джерело

Дивовижно! Дякую, що поділились. Для програм у режимі реального часу не забудьте створити окрему функцію, яка обчислює новий сигнал з кожною вхідною точкою даних. Не переглядайте повні дані щоразу, коли приходить нова точка даних, це було б вкрай неефективно :)

— Жан-Пол

1

Хороша думка, я не думав про це, тому що вікна, які я використовую, не перетинаються.

— leonardkraemer

3

Ось змінена версія Fortran алгоритму z-score . Він змінений спеціально для пікового (резонансного) виявлення функцій передачі у просторі частот (Кожна зміна має невеликий коментар у коді).

Перша модифікація дає попередження користувачеві, якщо поблизу нижньої межі вхідного вектора є резонанс, позначений стандартним відхиленням, що перевищує певний поріг (10% у цьому випадку). Це просто означає, що сигнал недостатньо рівний, щоб виявлення ініціалізувало фільтри належним чином.

Друга модифікація полягає в тому, що до знайдених вершин додається лише найвище значення піку. Це досягається шляхом порівняння кожного знайденого пікового значення з величиною його (відставання) попередників та його (відставання) наступників.

Третя зміна полягає в тому, що резонансні піки зазвичай демонструють певну форму симетрії навколо резонансної частоти. Тож закономірно обчислювати середнє значення та std симетрично навколо поточної точки даних (а не лише для попередників). Це призводить до кращої поведінки пікового виявлення.

Модифікації призводять до того, що весь сигнал повинен бути заздалегідь відомий функції, що є звичайним випадком для резонансного виявлення (щось подібне до прикладу Матлаба Жана-Поля, коли точки даних, що генеруються на льоту, не працюватимуть).

function PeakDetect(y,lag,threshold, influence)
    implicit none
    ! Declaring part
    real, dimension(:), intent(in) :: y
    integer, dimension(size(y)) :: PeakDetect
    real, dimension(size(y)) :: filteredY, avgFilter, stdFilter
    integer :: lag, ii
    real :: threshold, influence

    ! Executing part
    PeakDetect = 0
    filteredY = 0.0
    filteredY(1:lag+1) = y(1:lag+1)
    avgFilter = 0.0
    avgFilter(lag+1) = mean(y(1:2*lag+1))
    stdFilter = 0.0
    stdFilter(lag+1) = std(y(1:2*lag+1))

    if (stdFilter(lag+1)/avgFilter(lag+1)>0.1) then ! If the coefficient of variation exceeds 10%, the signal is too uneven at the start, possibly because of a peak.
        write(unit=*,fmt=1001)
1001        format(1X,'Warning: Peak detection might have failed, as there may be a peak at the edge of the frequency range.',/)
    end if
    do ii = lag+2, size(y)
        if (abs(y(ii) - avgFilter(ii-1)) > threshold * stdFilter(ii-1)) then
            ! Find only the largest outstanding value which is only the one greater than its predecessor and its successor
            if (y(ii) > avgFilter(ii-1) .AND. y(ii) > y(ii-1) .AND. y(ii) > y(ii+1)) then
                PeakDetect(ii) = 1
            end if
            filteredY(ii) = influence * y(ii) + (1 - influence) * filteredY(ii-1)
        else
            filteredY(ii) = y(ii)
        end if
        ! Modified with respect to the original code. Mean and standard deviation are calculted symmetrically around the current point
        avgFilter(ii) = mean(filteredY(ii-lag:ii+lag))
        stdFilter(ii) = std(filteredY(ii-lag:ii+lag))
    end do
end function PeakDetect

real function mean(y)
    !> @brief Calculates the mean of vector y
    implicit none
    ! Declaring part
    real, dimension(:), intent(in) :: y
    integer :: N
    ! Executing part
    N = max(1,size(y))
    mean = sum(y)/N
end function mean

real function std(y)
    !> @brief Calculates the standard deviation of vector y
    implicit none
    ! Declaring part
    real, dimension(:), intent(in) :: y
    integer :: N
    ! Executing part
    N = max(1,size(y))
    std = sqrt((N*dot_product(y,y) - sum(y)**2) / (N*(N-1)))
end function std

Для мого застосування алгоритм працює як шарм!

— ТО
джерело

3

Якщо ви отримали свої дані в таблиці бази даних, ось версія SQL простого алгоритму z-score:

with data_with_zscore as (
    select
        date_time,
        value,
        value / (avg(value) over ()) as pct_of_mean,
        (value - avg(value) over ()) / (stdev(value) over ()) as z_score
    from {{tablename}}  where datetime > '2018-11-26' and datetime < '2018-12-03'
)


-- select all
select * from data_with_zscore 

-- select only points greater than a certain threshold
select * from data_with_zscore where z_score > abs(2)

— Океанський аероп
джерело

Ваш код виконує щось інше, ніж запропонований мною алгоритм. Ваш запит просто обчислює z-бали ([точка даних - середнє] / std), але не включає логіку мого алгоритму, який ігнорує минулі сигнали під час обчислення нових порогових сигналів. Ви також ігноруєте три параметри (відставання, вплив, поріг). Чи можете ви переглянути свою відповідь, щоб включити фактичну логіку?

— Жан-Пол

1

Так, ваше право. Спочатку я думав, що можу піти з вищезазначеної спрощеної версії .. З тих пір я прийняв ваше повне рішення і переніс його на C #. Дивіться мою відповідь нижче. Коли в мене з’явиться більше часу, я відвідаю цю версію SQL і включаю ваш алгоритм. До речі, дякую за таку чудову відповідь та візуальне пояснення.

— Ocean Airdrop

Без проблем і радий, що алгоритм може вам допомогти! Дякуємо за ваше подання на C #, яке ще відсутнє. Я додам його до списку перекладів!

— Жан-Пол

3

Версія Python, яка працює з потоками в режимі реального часу (не перераховує всі точки даних після прибуття кожної нової точки даних). Ви можете налаштувати те, що повертає функція класу - для моїх цілей мені просто потрібні були сигнали.

import numpy as np

class real_time_peak_detection():
    def __init__(self, array, lag, threshold, influence):
        self.y = list(array)
        self.length = len(self.y)
        self.lag = lag
        self.threshold = threshold
        self.influence = influence
        self.signals = [0] * len(self.y)
        self.filteredY = np.array(self.y).tolist()
        self.avgFilter = [0] * len(self.y)
        self.stdFilter = [0] * len(self.y)
        self.avgFilter[self.lag - 1] = np.mean(self.y[0:self.lag]).tolist()
        self.stdFilter[self.lag - 1] = np.std(self.y[0:self.lag]).tolist()

    def thresholding_algo(self, new_value):
        self.y.append(new_value)
        i = len(self.y) - 1
        self.length = len(self.y)
        if i < self.lag:
            return 0
        elif i == self.lag:
            self.signals = [0] * len(self.y)
            self.filteredY = np.array(self.y).tolist()
            self.avgFilter = [0] * len(self.y)
            self.stdFilter = [0] * len(self.y)
            self.avgFilter[self.lag - 1] = np.mean(self.y[0:self.lag]).tolist()
            self.stdFilter[self.lag - 1] = np.std(self.y[0:self.lag]).tolist()
            return 0

        self.signals += [0]
        self.filteredY += [0]
        self.avgFilter += [0]
        self.stdFilter += [0]

        if abs(self.y[i] - self.avgFilter[i - 1]) > self.threshold * self.stdFilter[i - 1]:
            if self.y[i] > self.avgFilter[i - 1]:
                self.signals[i] = 1
            else:
                self.signals[i] = -1

            self.filteredY[i] = self.influence * self.y[i] + (1 - self.influence) * self.filteredY[i - 1]
            self.avgFilter[i] = np.mean(self.filteredY[(i - self.lag):i])
            self.stdFilter[i] = np.std(self.filteredY[(i - self.lag):i])
        else:
            self.signals[i] = 0
            self.filteredY[i] = self.y[i]
            self.avgFilter[i] = np.mean(self.filteredY[(i - self.lag):i])
            self.stdFilter[i] = np.std(self.filteredY[(i - self.lag):i])

        return self.signals[i]

— делікатес
джерело

Дякуємо за публікацію, я додав ваш переклад до списку.

— Жан-Пол

3

Я дозволив собі створити версію JavaScript. Можливо, це буде корисно. Javascript повинен бути прямою транскрипцією псевдокоду, наведеним вище. Доступний у вигляді пакету npm та github repo:

https://github.com/crux/smoothed-z-score
@ joe_six / згладжено-z-оцінка-пік-сигнал-виявлення

Переклад Javascript:

// javascript port of: /programming/22583391/peak-signal-detection-in-realtime-timeseries-data/48895639#48895639

function sum(a) {
    return a.reduce((acc, val) => acc + val)
}

function mean(a) {
    return sum(a) / a.length
}

function stddev(arr) {
    const arr_mean = mean(arr)
    const r = function(acc, val) {
        return acc + ((val - arr_mean) * (val - arr_mean))
    }
    return Math.sqrt(arr.reduce(r, 0.0) / arr.length)
}

function smoothed_z_score(y, params) {
    var p = params || {}
    // init cooefficients
    const lag = p.lag || 5
    const threshold = p.threshold || 3.5
    const influence = p.influece || 0.5

    if (y === undefined || y.length < lag + 2) {
        throw ` ## y data array to short(${y.length}) for given lag of ${lag}`
    }
    //console.log(`lag, threshold, influence: ${lag}, ${threshold}, ${influence}`)

    // init variables
    var signals = Array(y.length).fill(0)
    var filteredY = y.slice(0)
    const lead_in = y.slice(0, lag)
    //console.log("1: " + lead_in.toString())

    var avgFilter = []
    avgFilter[lag - 1] = mean(lead_in)
    var stdFilter = []
    stdFilter[lag - 1] = stddev(lead_in)
    //console.log("2: " + stdFilter.toString())

    for (var i = lag; i < y.length; i++) {
        //console.log(`${y[i]}, ${avgFilter[i-1]}, ${threshold}, ${stdFilter[i-1]}`)
        if (Math.abs(y[i] - avgFilter[i - 1]) > (threshold * stdFilter[i - 1])) {
            if (y[i] > avgFilter[i - 1]) {
                signals[i] = +1 // positive signal
            } else {
                signals[i] = -1 // negative signal
            }
            // make influence lower
            filteredY[i] = influence * y[i] + (1 - influence) * filteredY[i - 1]
        } else {
            signals[i] = 0 // no signal
            filteredY[i] = y[i]
        }

        // adjust the filters
        const y_lag = filteredY.slice(i - lag, i)
        avgFilter[i] = mean(y_lag)
        stdFilter[i] = stddev(y_lag)
    }

    return signals
}

module.exports = smoothed_z_score

— Дірк Люсебринк
джерело

Дякуємо, що опублікували ваш переклад. Я додав ваш код до вашої відповіді, щоб люди могли його швидко побачити. Я додам ваш переклад до списку.

— Жан-Пол

На сьогоднішній день я переніс якийсь інший алгоритм до JavaScript. Цього разу від числових піхонів, які дають мені більше контролю та працюють краще для мене. Також упаковані в npm, і ви можете знайти більше інформації про algo з університету штату Вашингтон на їхній сторінці юпітера. npmjs.com/package/@joe_six/duarte-watanabe-peak-detection

— Dirk Lüsebrink

2

Якщо граничне значення чи інші критерії залежать від майбутніх значень, то єдиним рішенням (без машини часу чи іншого знання майбутніх значень) є затримка будь-якого рішення до тих пір, поки не буде достатньо майбутніх значень. Якщо ви хочете, щоб рівень був вище середнього, який охоплює, наприклад, 20 балів, тоді вам доведеться почекати, поки у вас є хоча б 19 балів перед будь-яким піковим рішенням, інакше наступна нова точка може повністю скинути ваш поріг 19 балів тому .

Ваш поточний сюжет не має піків ... якщо ви якось заздалегідь не знаєте, що наступна точка - це не 1e99, яка після зміни розміру Y вашого сюжету буде рівна до цього моменту.

— гаряча лапа2
джерело

Як я вже говорив раніше, ми можемо вважати, що якщо настає пік, він такий же великий, як піки на малюнку, і значно відхиляється від 'нормальних' значень.

— Жан-Поль

Якщо ви знаєте, наскільки великі будуть піки заздалегідь, то заздалегідь встановіть середнє значення та / або поріг трохи нижче цього значення.

— hotpaw2

1

І саме це я не знаю заздалегідь.

— Жан-Пол

1

Ви просто суперечили собі і писали, що піки, як відомо, мають розмір на малюнку. Або ви знаєте це, або не знаєте.

— hotpaw2

2

Я намагаюся пояснити це вам. Ви зрозуміли, що зараз ідея? "Як визначити значно великі вершини". Ви можете підійти до проблеми або статистично, або за допомогою розумного алгоритму. З .. As large as in the pictureя мав в виду: для подібних ситуацій , коли є значні піки і основні шуми.

— Жан-Поль

2

А ось і PHP-реалізація альго ZSCORE:

<?php
$y = array(1,7,1.1,1,0.9,1,1,1.1,1,0.9,1,1.1,1,1,0.9,1,1,1.1,1,1,1,1,1.1,0.9,1,1.1,1,1,0.9,
       1,1.1,1,1,1.1,1,0.8,0.9,1,1.2,0.9,1,1,1.1,1.2,1,1.5,10,3,2,5,3,2,1,1,1,0.9,1,1,3,
       2.6,4,3,3.2,2,1,1,0.8,4,4,2,2.5,1,1,1);

function mean($data, $start, $len) {
    $avg = 0;
    for ($i = $start; $i < $start+ $len; $i ++)
        $avg += $data[$i];
    return $avg / $len;
}

function stddev($data, $start,$len) {
    $mean = mean($data,$start,$len);
    $dev = 0;
    for ($i = $start; $i < $start+$len; $i++) 
        $dev += (($data[$i] - $mean) * ($data[$i] - $mean));
    return sqrt($dev / $len);
}

function zscore($data, $len, $lag= 20, $threshold = 1, $influence = 1) {

    $signals = array();
    $avgFilter = array();
    $stdFilter = array();
    $filteredY = array();
    $avgFilter[$lag - 1] = mean($data, 0, $lag);
    $stdFilter[$lag - 1] = stddev($data, 0, $lag);

    for ($i = 0; $i < $len; $i++) {
        $filteredY[$i] = $data[$i];
        $signals[$i] = 0;
    }


    for ($i=$lag; $i < $len; $i++) {
        if (abs($data[$i] - $avgFilter[$i-1]) > $threshold * $stdFilter[$lag - 1]) {
            if ($data[$i] > $avgFilter[$i-1]) {
                $signals[$i] = 1;
            }
            else {
                $signals[$i] = -1;
            }
            $filteredY[$i] = $influence * $data[$i] + (1 - $influence) * $filteredY[$i-1];
        } 
        else {
            $signals[$i] = 0;
            $filteredY[$i] = $data[$i];
        }

        $avgFilter[$i] = mean($filteredY, $i - $lag, $lag);
        $stdFilter[$i] = stddev($filteredY, $i - $lag, $lag);
    }
    return $signals;
}

$sig = zscore($y, count($y));

print_r($y); echo "<br><br>";
print_r($sig); echo "<br><br>";

for ($i = 0; $i < count($y); $i++) echo $i. " " . $y[$i]. " ". $sig[$i]."<br>";

?>

— radhoo
джерело

Дякую за публікацію, я додав ваш переклад до списку.

— Жан-Пол

1

Один коментар: враховуючи, що цей алгоритм буде використовуватися здебільшого на вибіркових даних, я пропоную вам реалізувати стандартне відхилення вибірки шляхом поділу ($len - 1)замість $lenнаstddev()

— Жан-Пол

1

Замість порівняння максимумів із середнім значенням можна також порівняти максимуми із суміжними мінімумами, де мінімуми визначені лише над порогом шуму. Якщо локальний максимум> 3 рази (або інший коефіцієнт довіри) або сусідні мінімуми, то ці максимуми є піком. Визначення піку точніше при ширших рухаються вікнах. Наведене вище, до речі, використовує обчислення з центром вікна, а не обчисленням в кінці вікна (== відставання).

Зауважте, що максимуми слід розглядати як збільшення сигналу до та зменшення після.

— нікола
джерело

1

Функція scipy.signal.find_peaks, як випливає з назви, корисна для цього. Але важливо зрозуміти , а його параметри width, threshold, distance і перш за всеprominence , щоб отримати хорошу здобич піку.

Згідно з моїми тестами та документацією, концепція видатності - це «корисна концепція» для збереження добрих вершин та відкидання галасливих вершин.

Що таке (топографічна) видатність ? Це "мінімальна висота, необхідна для спуску, щоб дістатися з вершини до будь-якої вищої місцевості" , як це видно тут:

Ідея така:

Чим більша видатність, тим "важливішим" є пік.

— мрк
джерело

1

Об'єктно-орієнтована версія алгоритму z-score з використанням mordern C +++

template<typename T>
class FindPeaks{
private:
    std::vector<T> m_input_signal;                      // stores input vector
    std::vector<T> m_array_peak_positive;               
    std::vector<T> m_array_peak_negative;               

public:
    FindPeaks(const std::vector<T>& t_input_signal): m_input_signal{t_input_signal}{ }

    void estimate(){
        int lag{5};
        T threshold{ 5 };                                                                                       // set a threshold
        T influence{ 0.5 };                                                                                    // value between 0 to 1, 1 is normal influence and 0.5 is half the influence

        std::vector<T> filtered_signal(m_input_signal.size(), 0.0);                                             // placeholdered for smooth signal, initialie with all zeros
        std::vector<int> signal(m_input_signal.size(), 0);                                                          // vector that stores where the negative and positive located
        std::vector<T> avg_filtered(m_input_signal.size(), 0.0);                                                // moving averages
        std::vector<T> std_filtered(m_input_signal.size(), 0.0);                                                // moving standard deviation

        avg_filtered[lag] = findMean(m_input_signal.begin(), m_input_signal.begin() + lag);                         // pass the iteartor to vector
        std_filtered[lag] = findStandardDeviation(m_input_signal.begin(), m_input_signal.begin() + lag);

        for (size_t iLag = lag + 1; iLag < m_input_signal.size(); ++iLag) {                                         // start index frm 
            if (std::abs(m_input_signal[iLag] - avg_filtered[iLag - 1]) > threshold * std_filtered[iLag - 1]) {     // check if value is above threhold             
                if ((m_input_signal[iLag]) > avg_filtered[iLag - 1]) {
                    signal[iLag] = 1;                                                                               // assign positive signal
                }
                else {
                    signal[iLag] = -1;                                                                                  // assign negative signal
                }
                filtered_signal[iLag] = influence * m_input_signal[iLag] + (1 - influence) * filtered_signal[iLag - 1];        // exponential smoothing
            }
            else {
                signal[iLag] = 0;                                                                                         // no signal
                filtered_signal[iLag] = m_input_signal[iLag];
            }

            avg_filtered[iLag] = findMean(filtered_signal.begin() + (iLag - lag), filtered_signal.begin() + iLag);
            std_filtered[iLag] = findStandardDeviation(filtered_signal.begin() + (iLag - lag), filtered_signal.begin() + iLag);

        }

        for (size_t iSignal = 0; iSignal < m_input_signal.size(); ++iSignal) {
            if (signal[iSignal] == 1) {
                m_array_peak_positive.emplace_back(m_input_signal[iSignal]);                                        // store the positive peaks
            }
            else if (signal[iSignal] == -1) {
                m_array_peak_negative.emplace_back(m_input_signal[iSignal]);                                         // store the negative peaks
            }
        }
        printVoltagePeaks(signal, m_input_signal);

    }

    std::pair< std::vector<T>, std::vector<T> > get_peaks()
    {
        return std::make_pair(m_array_peak_negative, m_array_peak_negative);
    }

};


template<typename T1, typename T2 >
void printVoltagePeaks(std::vector<T1>& m_signal, std::vector<T2>& m_input_signal) {
    std::ofstream output_file("./voltage_peak.csv");
    std::ostream_iterator<T2> output_iterator_voltage(output_file, ",");
    std::ostream_iterator<T1> output_iterator_signal(output_file, ",");
    std::copy(m_input_signal.begin(), m_input_signal.end(), output_iterator_voltage);
    output_file << "\n";
    std::copy(m_signal.begin(), m_signal.end(), output_iterator_signal);
}

template<typename iterator_type>
typename std::iterator_traits<iterator_type>::value_type findMean(iterator_type it, iterator_type end)
{
    /* function that receives iterator to*/
    typename std::iterator_traits<iterator_type>::value_type sum{ 0.0 };
    int counter = 0;
    while (it != end) {
        sum += *(it++);
        counter++;
    }
    return sum / counter;
}

template<typename iterator_type>
typename std::iterator_traits<iterator_type>::value_type findStandardDeviation(iterator_type it, iterator_type end)
{
    auto mean = findMean(it, end);
    typename std::iterator_traits<iterator_type>::value_type sum_squared_error{ 0.0 };
    int counter{ 0 };
    while (it != end) {
        sum_squared_error += std::pow((*(it++) - mean), 2);
        counter++;
    }
    auto standard_deviation = std::sqrt(sum_squared_error / (counter - 1));
    return standard_deviation;
}

— Спандіє
джерело

2

Гарний переклад. Було б трохи краще , якщо об'єкт також зберігає filtered_signal, signal, avg_filteredі , std_filteredяк приватні змінні і оновлює тільки ті масиви , один раз , коли новий DataPoint прибуває (тепер код перебирає всі точки даних кожен раз, коли вона називається). Це покращило б роботу вашого коду і ще краще підходило до структури OOP.

— Жан-Пол

Пік виявлення сигналу в даних реальних часових серій

Міцний алгоритм виявлення піків (з використанням z-балів)

Демо

Результат

Реалізація різними мовами програмування:

Матлаб (я)

R (мене)

Голанг (Ксеонкросс)

Пітон (Р. Кисельов)

Python [ефективна версія] (delica)

Свіфт (мені)

Groovy (JoshuaCWebDeveloper)

C ++ (брад)

C ++ (Анімеш Панді)

Іржа (майстер)

Скала (Майк Робертс)

Котлін (леодерпрофі)

Рубі (Кіммо Лехто)

Фортран [для резонансного виявлення] (ТО)

Джулія (Метт Кемп)

C # (океанічна капка)

C (DavidC)

Java (takanuva15)

JavaScript (Дірк Люсебринк)

TypeScript (Джеррі Гембл)

Perl (Ален)

PHP (radhoo)

Правила конфігурації алгоритму

(Відомі) академічні цитати до цієї відповіді StackOverflow:

Переваги

Недоліки

Впровадження C ++

Додаток 1 до оригінальної відповіді: Matlabта Rперекладів

Додаток 2 до оригінальної відповіді: Matlabдемонстраційний код

Переклад Javascript:

Додаток 1 до оригінальної відповіді: `Matlab`та `R`перекладів

Додаток 2 до оригінальної відповіді: `Matlab`демонстраційний код