Розподіл подій у часі з довгим хвостом


10

Припустимо, у вас є журнали веб-сервера. У цих журналах є кортежі такого роду:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Ці часові позначки відображають, наприклад, кліки користувачів. Тепер user1ви відвідуватимете сайт кілька разів (сеанси) протягом місяця, і ви будете мати ряди кліків кожного користувача під час кожного сеансу (припустимо, що коли користувач відвідує ваш сайт, він буде натискати на декілька сторінок).

Припустимо, ви хочете розділити ці сплески кліків у сесіях, які їх генерували, але у вас немає додаткового джерела інформації, лише список часових позначок. Якщо обчислити розподіл інтервалів між двома послідовними клацаннями від одного і того ж користувача, ви отримаєте розподіл з довгими хвостами. Інтуїтивно ви шукаєте "параметр вирізання", наприклад, N секунд, де якщо timestamp_{i+1} - timestamp{i} > N, тоді ваш timestamp_{i+1}- початок нового сеансу.

Проблема полягає в тому, що цей розподіл насправді є сумішшю двох змінних: X = "інтервал між двома послідовними клацаннями в одному сеансі" та Y = "інтервал між останнім клацанням попереднього сеансу та першим з нового".

Питання полягає в тому, як оцінити цей N, який ділить два розподіли (можливо, трохи перекриваючись), просто дивлячись на сплеск кліків?


Коли ви говорите "просто дивлячись на сплеск кліків", ви маєте на увазі, що ви не можете обчислити нічого, крім N?
jerad

Я маю на увазі, що у вас немає додаткових джерел інформації, крім кортежів (користувач, часова марка). Пороговий метод (заснований на дельті> N) - лише приклад методу. Можливо, щось інше можливо.
marcorossi

Відповіді:


2

Ви дійсно повинні побудувати логарифм інтервалів між кліками замість необроблених значень; це згладить ваш дистрибутив і навіть виявить кілька режимів у вашому розповсюдженні.

Більш прогресивні підходи були розроблені нейрознавцями для вирішення дуже подібної проблеми в виявленні сплеску нейронних спайок. Цей класичний документ або багато інших супутніх робіт про науковця Google .


Я надрукував журнал розповсюдження. Це рівна лінія. Як це допомагає? Що б ви подивилися? Довідка для статті велика, дякую.
marcorossi

А як щодо діаграми ймовірності журналу? тобто приймайте журнал лише частот, а не інтервалів. Чи виявляє це два режими?
jerad
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.