Техніка вилучення функцій - узагальнення послідовності даних


11

Я часто будую модель (класифікацію чи регресію), де у мене є деякі змінні прогнози, що є послідовностями, і я намагаюся знайти рекомендації щодо техніки для їх узагальнення найкращим чином для включення в якості предикторів до моделі.

Як конкретний приклад, скажімо, будується модель, яка передбачає, чи клієнт покине компанію протягом наступних 90 днів (у будь-який час між t і t + 90; таким чином, бінарний результат). Одним із доступних прогнозів є рівень фінансового балансу клієнтів за періоди t_0 до t-1. Можливо, це відображає щомісячні спостереження за попередні 12 місяців (тобто 12 вимірювань).

Я шукаю способи побудови функцій з цієї серії. Я використовую описові описи кожної серії клієнтів, такі як середній, високий, низький, строковий розробник, підходить до регресії OLS, щоб отримати тенденцію. Чи є їхні інші методи обчислення ознак? Інші заходи змін або мінливості?

ДОДАТИ:

Як було сказано у відповіді нижче, я також розглядав (але забув додати тут), використовуючи динамічне викривлення часу (DTW), а потім ієрархічну кластеризацію на отриманій матриці відстані - створюючи деяку кількість кластерів, а потім використовуючи членство кластера як функцію. Оцінка даних тестів, ймовірно, повинна слідувати процесу, коли DTW робився в нових випадках і центроїдах кластера - відповідності нової серії даних до їх найближчих центроїдів ...

Відповіді:


7

ЛЮБИТЬ, щоб побачити поле, в якому зібрані приклади з інженерії / видобутку

Будь ласка, порадьте, якщо це допомагає

  1. Дискретизація даних часових рядів http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. Оптимізація дискретизації часових рядів для виявлення знань https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. Досвід SAX: нове символічне представлення часових рядів http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. Індексація для інтерактивного дослідження серії великих даних http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. Узагальнене вилучення функцій для розпізнавання структурних візерунків у даних часових рядів http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. Обчислення та візуалізація динамічних вирівнювань часу викривлення в R: пакет dtw https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

Що ви намагаєтеся тут зробити, це зменшити розмірність ваших функцій. Ви можете шукати зменшення розмірності, щоб отримати кілька варіантів, але одна дуже популярна методика - це аналіз основних компонентів (PCA). Основні компоненти не можна інтерпретувати, як описані вами варіанти, але вони непогано підсумовують всю інформацію.


Я хвилююсь у цій відповіді, що PCA не визнає чіткої залежності між рядами t та t + 1.
B_Miner

Якщо залежність t і t + 1 є тенденцією або сезонністю - розглянути можливість її вилучення та мати справу з рештою, як з незалежними змінними.
Дієго

2

Вилучення можливостей - це завжди виклик і менш зайнята тема в літературі, оскільки це широко залежить від застосування.

Деякі ідеї, які ви можете спробувати:

  • Сирі дані, виміряні день у день. Це очевидно з деякими наслідками та додатковою попередньою обробкою (нормалізацією), щоб порівняти строки різної довжини.
  • Вищі моменти: косоокість, куртоз тощо
  • Похідні (и): швидкість еволюції
  • Проміжок часу не настільки великий, але, можливо, варто спробувати деякі функції аналізу часових рядів, наприклад, наприклад, автокореляція.
  • Деякі спеціалізовані функції, такі як порушення часової шкали по тижнях, і вимірюють кількість, яку ви вже вимірюєте за кожен тиждень окремо. Тоді нелінійний класифікатор міг би поєднувати, наприклад, функції першого тижня з особливостями минулого тижня, щоб отримати зрозуміння еволюції в часі.

Приємні пропозиції! Чи можете ви більше конкретизувати вживання похідних?
B_Miner

Я повністю згоден з вашим першим твердженням. Я хотів би побачити поле, в якому зібрані приклади з інженерії / видобутку функцій. Прислів’я полягає в тому, що створення функцій набагато важливіше, ніж останній найбільший алгоритм ефективності прогнозованої моделі.
B_Miner

2

На перший погляд, вам потрібно витягнути функції зі свого часового ряду (x - 12) - x. Один з можливих підходів - це обчислити підсумкові показники: середній показник, дисперсія тощо. Але таким чином ви втратите всю інформацію, що стосується часових рядів. Але дані, витягнуті з форми кривої, можуть бути досить корисними. Рекомендую переглянути цю статтю, де автори пропонують алгоритм кластеризації часових рядів. Сподіваюся, це стане в нагоді. На додаток до такого кластеризації ви можете додати підсумкову статистику до свого списку функцій.


Дякуємо за посилання Я також розглядав можливість використання DTW та ієрархічної кластеризації. Я експериментував з пакетом R для DWT. jstatsoft.org/v31/i07/paper
B_Miner

1
Я розглядав конкретно створення n кластерів та використання членства кластеризації як функції.
B_Miner
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.