Виявлення поза часом у часовій серії: Як зменшити помилкові позитиви?


11

Я намагаюся автоматизувати зовнішнє виявлення у часових рядах, і я використав модифікацію рішення, запропонованого тут Роб Хайндманом .

Скажімо, я вимірюю щоденні відвідування веб-сайту з різних країн. Для деяких країн, де щоденних відвідувань є кілька тисяч або тисячі, мій метод, здається, працює розумно.

Однак у тих випадках, коли країна веде лише до 1 або 2 відвідувань на день, межі алгоритму дуже вузькі (наприклад, 1 ± 0,001), і тому два візити вважаються випереджаючими. Як я міг автоматично виявляти подібні випадки і як я міг їх ставити до виявлення людей, що не існують? Я не хотів би встановлювати ручний поріг, скажімо, 100 відвідувань на день.

Дякую!


2
Природний, простий спосіб , який може вирішити проблему - що з - за (принаймні частково) до високого змінної дисперсії - це застосування дисперсії стабілізуючих перетворень, таким як трансформації Анскомб або Фрімно-Тьюк , до даних перш ніж шукати людей, що вижили.
whuber

Відповіді:


3

Не чекайте багато для невеликих, дискретних рахунків. Від 1 до 2 відвідувань - це 100% збільшення, а від 0 до 1 відвідування - нескінченне збільшення. На низьких рівнях ви можете мати справу з надутими нулями моделями , і там може бути дуже шумно.

З мого досвіду, підраховуйте дані з сумішшю великих і малих підрахунків, як це призводить до виникнення двох проблем з вашими маленькими рахунками: 1) вони занадто грубі, щоб багато чого зробити, 2) вони генеруються різними процесами. (Подумайте, маленьке, сільське поштове відділення порівняно з великим міським поштовим відділенням). Тож вам потрібно принаймні розділити своє моделювання надвоє: виконайте те, що ви успішно робите для більшої підрахунку, і робіть щось інше - більш грубе і приблизне - з невеликим рахунком. Але не сподівайтесь на велику кількість маленьких рахунків.

Хороша новина полягає в тому, що великі рахунки, за визначенням, включають більше ваших транзакцій, тому ваша краща модель охоплює більше даних, хоча вона може не охоплювати більшість ваших сайтів.

(Я кажу, що "моделювання" є загальним, але, звичайно, виявлення зовнішньої форми передбачає певну модель і знаходження точок, які малоймовірні з припущеннями цієї моделі.)


1

Кожне значення з вашого часового ряду є вибіркою з розподілу ймовірностей. Потрібно спочатку знайти, що таке розподіл ймовірностей, а потім визначити, що означає слово рідкісне в межах цього розподілу.

Отже, обчисліть емпіричний cdf та обчисліть довірчий інтервал 95%. Кожного разу, коли трапляється щось поза цим регіоном, то за визначенням ви знаєте, що це повинна бути рідкісна подія.


0

Одна річ - виявити Аульєра на певному рівні впевненості, а ще - розмістити другу специфікацію, яка ще більше обмежить прийняття інших. Мені одного разу було задано наступне питання "Чи може AUTOBOX виявити середній зсув одиниць xx за попередньо заданим рівнем впевненості". По суті, потрібно було подвійне випробування. AUTOBOX - це програмне забезпечення, яке я допоміг розробити, яке може бути економічно вигідним, оскільки жодне вільне програмне забезпечення не реалізувало цей подвійний тест.

Дякую Ніку: Я використовував зсув рівня як особливий приклад "чужої людини" або взагалі емпірично визначеного детермінованого впливу. Іншими формами "залишків" є імпульси, сезонні імпульси та локальні тенденції часу та особливі комбінації, такі як перехідна зміна на новий рівень. Основним моментом було те, що можуть існувати дві гіпотези, які відображають статистичну значимість та реальне значення. Замовник, який спочатку привернув цю проблему до моєї уваги, зацікавив обох.


Зовнішні люди не повинні мати на увазі середній зсув .... Насправді, ступінчаста чи скажена зміна між режимами різними засобами зовсім не повинна спричинити за собою людей, що переживають люди. Ви це дуже добре знаєте, але, на мою думку, це має на увазі, що було б найбільш корисно іншим, щоб чітко визначити вашу відповідь.
Нік Кокс

Дякую вам обом. Мене цікавить реальна світова значимість. Визначивши сторонність, я зважую його важливість, скажімо, на частку відвідувань порівняно із загальним числом відвідувань, щоб отримати остаточне значення. Хоча ця частка дійсно мала у випадках 2-х відвідувань, оскільки очікувані значення становлять 1 ± 0,001, "відстань" фактичної точки від очікуваних меж дуже велика (наприклад, 2 / 0,002, де 0,002 - "iqr") . Отже, питання зрештою набуває високого значення. Будь-які ідеї?
Стергіос

Я хотів би сказати, що розширене використання "чужих" тут набагато ширше, ніж щедрий сенс всього екстремального, що є загальним у багатьох літературах. Досвідчені читачі знають, що @IrishStat дотримується свого форте, аналізу часових рядів.
Нік Кокс

0

У вас виникає ця проблема, оскільки ваші дані далеко не звичайні. Якщо розподіл сильно асиметричний, з шишками, горбами або занадто довгими / короткими хвостами у вас виникнуть проблеми. Хороша ідея - застосувати трансформацію типу Box Cox або Yeo-Johnson перед тим, як використовувати ваш метод. У вашому прикладі, якщо ви використовуєте F (x) = log (1 + x), ви уникаєте різної величини, і ви можете конвертувати назад за допомогою: exp (z) -1

Існує кілька процедур, які ви можете використовувати, щоб автоматично знайти хорошу лямбда для перетворення Box-Cox. Я особисто використовую медіану всіх методів функції boxcoxnc з пакету AID у Р. Якщо ваші дані не є суто позитивними, перед використанням потрібно буде додати 1 чи інше додатне число.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.