Розподіл подій у часі з довгим хвостом

Припустимо, у вас є журнали веб-сервера. У цих журналах є кортежі такого роду:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Ці часові позначки відображають, наприклад, кліки користувачів. Тепер user1ви відвідуватимете сайт кілька разів (сеанси) протягом місяця, і ви будете мати ряди кліків кожного користувача під час кожного сеансу (припустимо, що коли користувач відвідує ваш сайт, він буде натискати на декілька сторінок).

Припустимо, ви хочете розділити ці сплески кліків у сесіях, які їх генерували, але у вас немає додаткового джерела інформації, лише список часових позначок. Якщо обчислити розподіл інтервалів між двома послідовними клацаннями від одного і того ж користувача, ви отримаєте розподіл з довгими хвостами. Інтуїтивно ви шукаєте "параметр вирізання", наприклад, N секунд, де якщо timestamp_{i+1} - timestamp{i} > N, тоді ваш timestamp_{i+1}- початок нового сеансу.

Проблема полягає в тому, що цей розподіл насправді є сумішшю двох змінних: X = "інтервал між двома послідовними клацаннями в одному сеансі" та Y = "інтервал між останнім клацанням попереднього сеансу та першим з нового".

Питання полягає в тому, як оцінити цей N, який ділить два розподіли (можливо, трохи перекриваючись), просто дивлячись на сплеск кліків?

distributions estimation mixture

— marcorossi
джерело

Коли ви говорите "просто дивлячись на сплеск кліків", ви маєте на увазі, що ви не можете обчислити нічого, крім N?

— jerad

Я маю на увазі, що у вас немає додаткових джерел інформації, крім кортежів (користувач, часова марка). Пороговий метод (заснований на дельті> N) - лише приклад методу. Можливо, щось інше можливо.

— marcorossi

Цей потік може зацікавити вас: відповідні-кластеризація-методи-тимчасові дані .

— gung - Відновіть Моніку

Ви дійсно повинні побудувати логарифм інтервалів між кліками замість необроблених значень; це згладить ваш дистрибутив і навіть виявить кілька режимів у вашому розповсюдженні.

Більш прогресивні підходи були розроблені нейрознавцями для вирішення дуже подібної проблеми в виявленні сплеску нейронних спайок. Цей класичний документ або багато інших супутніх робіт про науковця Google .

— джерад
джерело

Я надрукував журнал розповсюдження. Це рівна лінія. Як це допомагає? Що б ви подивилися? Довідка для статті велика, дякую.

— marcorossi

А як щодо діаграми ймовірності журналу? тобто приймайте журнал лише частот, а не інтервалів. Чи виявляє це два режими?

— jerad