Я займаюся проектом аналізу даних, який передбачає вивчення часу використання веб-сайтів протягом року. Що я хотів би зробити, це порівняти, наскільки "послідовними" є схеми використання, скажімо, наскільки вони близькі до тієї схеми, яка передбачає використання її протягом 1 години один раз на тиждень, або тієї, що передбачає використання її протягом 10 хвилин на час, 6 разів на тиждень. Мені відомо кілька речей, які можна обчислити:
- Ентропія Шеннона: вимірює, наскільки відрізняється "визначеність" у результаті, тобто наскільки розподіл ймовірностей відрізняється від рівномірного;
- Дивергенція Куллбека-Ліблера: вимірює, наскільки один розподіл ймовірностей відрізняється від іншого
- Дивергенція Дженсена-Шеннона: подібна до KL-розбіжності, але корисніша, оскільки повертає кінцеві значення
- Тест Смірнова-Колмогорова : тест для визначення того, чи походять дві функції сукупного розподілу для безперервних випадкових величин з однієї вибірки.
- Тест Chi-квадрата: тест на придатність, щоб визначити, наскільки добре розподіл частоти відрізняється від очікуваного розподілу частоти.
Що я хотів би зробити, це порівняти, наскільки фактична тривалість використання (синій) відрізняється від ідеального часу використання (помаранчевого) в розповсюдженні. Ці розподіли дискретні, і наведені нижче версії нормалізуються, щоб стати розподілами ймовірностей. Горизонтальна вісь представляє кількість часу (у хвилинах), який користувач провів на веб-сайті; це фіксується для кожного дня року; якщо користувач взагалі не перейшов на веб-сайт, це вважається нульовою тривалістю, але вони були вилучені з розподілу частоти. Праворуч - накопичувальна функція розподілу.
Моя єдина проблема полягає в тому, що, хоча я можу отримати JS-розбіжність повернути кінцеве значення, коли я дивлюся на різних користувачів і порівнюю їх розподіл використання з ідеальним, я отримую значення, які в основному однакові (що, отже, не є корисним показник того, наскільки вони відрізняються). Також досить багато інформації втрачається при нормалізації розподілу ймовірностей, а не розподілу частот (скажімо, студент використовує платформу 50 разів, тоді синій розподіл слід вертикально масштабувати, щоб загальна довжина смуг дорівнювала 50, і помаранчева смужка повинна мати висоту 50, а не 1). Частина того, що ми маємо на увазі під "послідовністю", полягає в тому, наскільки часто користувач переходить на веб-сайт впливає на те, наскільки вони виходять з нього; якщо втрачено кількість разів, коли вони відвідують веб-сайт, порівняння розподілу ймовірностей є трохи сумнівним; навіть якщо розподіл ймовірності тривалості користувача близький до "ідеального" використання, він може використовувати платформу лише протягом 1 тижня протягом року, що, можливо, не дуже відповідає.
Чи існують чітко встановлені методи порівняння двох розподілів частот і обчислення якоїсь метрики, яка характеризує, наскільки вони схожі (або різні)?