Як виміряти статистичну "відстань" між двома частотними розподілами?


14

Я займаюся проектом аналізу даних, який передбачає вивчення часу використання веб-сайтів протягом року. Що я хотів би зробити, це порівняти, наскільки "послідовними" є схеми використання, скажімо, наскільки вони близькі до тієї схеми, яка передбачає використання її протягом 1 години один раз на тиждень, або тієї, що передбачає використання її протягом 10 хвилин на час, 6 разів на тиждень. Мені відомо кілька речей, які можна обчислити:

  • Ентропія Шеннона: вимірює, наскільки відрізняється "визначеність" у результаті, тобто наскільки розподіл ймовірностей відрізняється від рівномірного;
  • Дивергенція Куллбека-Ліблера: вимірює, наскільки один розподіл ймовірностей відрізняється від іншого
  • Дивергенція Дженсена-Шеннона: подібна до KL-розбіжності, але корисніша, оскільки повертає кінцеві значення
  • Тест Смірнова-Колмогорова : тест для визначення того, чи походять дві функції сукупного розподілу для безперервних випадкових величин з однієї вибірки.
  • Тест Chi-квадрата: тест на придатність, щоб визначити, наскільки добре розподіл частоти відрізняється від очікуваного розподілу частоти.

Що я хотів би зробити, це порівняти, наскільки фактична тривалість використання (синій) відрізняється від ідеального часу використання (помаранчевого) в розповсюдженні. Ці розподіли дискретні, і наведені нижче версії нормалізуються, щоб стати розподілами ймовірностей. Горизонтальна вісь представляє кількість часу (у хвилинах), який користувач провів на веб-сайті; це фіксується для кожного дня року; якщо користувач взагалі не перейшов на веб-сайт, це вважається нульовою тривалістю, але вони були вилучені з розподілу частоти. Праворуч - накопичувальна функція розподілу.

Поширення даних про використання веб-сайтів порівняно з ідеальними даними про використання

Моя єдина проблема полягає в тому, що, хоча я можу отримати JS-розбіжність повернути кінцеве значення, коли я дивлюся на різних користувачів і порівнюю їх розподіл використання з ідеальним, я отримую значення, які в основному однакові (що, отже, не є корисним показник того, наскільки вони відрізняються). Також досить багато інформації втрачається при нормалізації розподілу ймовірностей, а не розподілу частот (скажімо, студент використовує платформу 50 разів, тоді синій розподіл слід вертикально масштабувати, щоб загальна довжина смуг дорівнювала 50, і помаранчева смужка повинна мати висоту 50, а не 1). Частина того, що ми маємо на увазі під "послідовністю", полягає в тому, наскільки часто користувач переходить на веб-сайт впливає на те, наскільки вони виходять з нього; якщо втрачено кількість разів, коли вони відвідують веб-сайт, порівняння розподілу ймовірностей є трохи сумнівним; навіть якщо розподіл ймовірності тривалості користувача близький до "ідеального" використання, він може використовувати платформу лише протягом 1 тижня протягом року, що, можливо, не дуже відповідає.

Чи існують чітко встановлені методи порівняння двох розподілів частот і обчислення якоїсь метрики, яка характеризує, наскільки вони схожі (або різні)?


4
Ви можете почати, запитавши себе, яка ваша функція втрат (тобто, в чому спосіб використання відрізняється від ідеального поганого, і як розмір поганості залежить від того, яка різновид розбіжності існує), і розробивши свою метрику навколо цього.
Нагромадження

Відповіді:


12

Можливо, вас зацікавить відстань землекористувача , також відома як метрика Вассерстейна . Він реалізований в R (дивіться на emdistпакет) і в Python . У нас також є ряд ниток на ньому .

EMD працює як для безперервного, так і для дискретного розподілу. emdistПакет R працює на дискретних розподілів.

χ2

χ2


Чому саме ця відстань? Здається, він призначений для будь-якого безперервного розповсюдження. OP має розподіл частоти, так чому б не більш "дискретна" відстань, наприклад, Chi-квадрат?
user2974951

@ user2974951: досить справедливо Дивіться мою редакцію.
Стефан Коласа

Lp

Lp

3

Якщо вибираєте випадковим чином вибірку особини з кожного з двох розподілів, ви можете обчислити різницю між ними. Якщо ви повторите це (із заміною) кілька разів, ви можете створити розподіл різниць, який містить всю інформацію, яку ви шукаєте. Ви можете побудувати цей розподіл та охарактеризувати його за допомогою будь-якої зведеної статистики, яку ви бажаєте - засобів, посередників тощо.


1
Чи існує назва такої процедури?
user2974951

4
Цікаво, як можна пояснити базовий факт, що розподіл відмінностей для довільного розподілу і сам буде різним для різних довільних розподілів; думаю, що U (0,1) проти самого себе порівняно з N (0,1) проти самого себе. Отже, розподіл відмінностей, який ви отримали, порівнюючи два різних розподіли, важко було б оцінити за відсутності унікальної базової лінії. Проблема зникає, якщо спостереження спарені, то базовою лінією буде одиниця маси в нулі.
Річард Харді

@ user2974951 Я впевнений, що є, оскільки це досить просто і чітко пов'язане з завантаженням. Але я не знаю, як саме це назвати.
mkt -

1
@mkt, дякую за пояснення. Не маючи наміру сперечатися лише заради цього, я все ще думаю, що без унікальної базової лінії у нас не зовсім є лінійка. Але я це залишу. У вашій ідеї все одно є щось приємне.
Річард Харді

1
@RichardHardy Я ціную обмін тут, і ти можеш мати рацію. Мені доведеться подумати над цим далі.
mkt -

0

Однією з метрик є відстань Хеллінгера між двома розподілами, які характеризуються засобами та стандартними відхиленнями. З заявою можна ознайомитися в наступній статті.

https://www.sciencedirect.com/science/article/pii/S1568494615005104


Дякую за це. Я бачив, що існує ціле сімейство розбіжностей (f-divergences), які роблять те, що я хочу, але швидкий пробіг літератури не вказує на те, що найкраще, коли ... чи знаєте ви якусь хорошу літературу з це?
omegaSQU4RED
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.