Виміряйте рівномірність розподілу по буднях


11

У мене є аналогічна проблема із заданим тут питанням:

Як можна виміряти нерівномірність розподілу?

У мене є набір розподілів ймовірностей по днях тижня. Я хочу виміряти, наскільки близький кожен розподіл до (1 / 7,1 / 7, ..., 1/7).

На даний момент я використовую відповідь із зазначеного питання; L2-норма, яка має значення 1, коли розподіл має масу 1 за один із днів, і мінімізоване для (1 / 7,1 / 7, ..., 1/7). Я лінійно масштабую це, щоб він лежав між 0 і 1, потім гортати так, щоб 0 означає абсолютно нерівномірний, а 1 означає абсолютно рівномірний.

Це працює досить добре, але в мене є одне питання; він розглядає кожен будній день однаково як вимір у 7-димному просторі, тому не враховує близькості днів; Іншими словами, він дає однакову оцінку (1 / 2,1 / 2,0,0,0,0,0) і (1 / 2,0,0,1 / 2,0,0,0) навіть хоча в певному сенсі останній є більш «розкинутим» і рівномірним, і в ідеалі він повинен отримати більш високий бал. Очевидно, є додаткове ускладнення, що впорядкування днів є круговим.

Як я можу змінити цю евристику для врахування близькості днів?


1
Ваш приклад (1 / 2,1 / 2,0,0,0,0,0) та (1 / 2,0,0,1 / 2,0,0,0) неоднаковий однаково , тож не має значення, якщо вас цікавить лише тестування на нерівномірність. Тож, можливо, ви хочете перевірити щось більше, про що явно не було сказано у вашому запитанні? Btw, ентропія - це міра рівномірності.
Тім

Дякую Тіме, я спробував використовувати "Ентропію", але я виявив, що вищевказаний евристик працював краще для моїх цілей. Я не впевнений, як назвати властивість розподілу ймовірностей по будних днях, що мене цікавить, за винятком того, що він повинен інкапсулювати "розкиданість" ймовірностей на тиждень.
EBartrum

Відповіді:


15

Земля рушій відстань , також відоме як Wasserstein метричний, вимірює відстань між двома гістограмами. По суті, він розглядає одну гістограму як кількість паль бруду, а потім оцінює, скільки бруду потрібно перемістити і наскільки далеко (!) Перетворити цю гістограму в іншу. Ви б виміряли відстань між вашим розподілом та рівномірним у дні тижня.

Звичайно, це стосується близькості днів - легше переміщувати "бруд" з понеділка по вівторок, ніж з понеділка по четвер, тому (1 / 2,0,0,1 / 2,0,0,0) було б менша відстань землекористувача від рівномірного розподілу, ніж гістограма, сконцентрована в понеділок та вівторок.

Що цього не робить - це вважати "кругозістю" тижня, тобто суботу та неділю настільки ж близькі, як і неділя та понеділок. Для цього вам потрібно буде шукати відстань наземного двигуна, визначену на кругових масових розподілах ймовірностей . Це слід зробити, використовуючи відповідний підхід до оптимізації.


РЕДАКТУВАННЯ: У R emdпакет обчислює відстані між землею, що рухається.

Ви можете вирішити питання "циркулярності" досить простим (хоча і спеціальним) способом.

  • г1
  • г2
  • г3
  • ...
  • г1,,г7

Це піклується про циркулярність за рахунок пари додаткових розрахунків.

гi

Однак я все-таки вважаю це потенційно корисним способом принаймні розглянути циркулярність певним чином - безумовно, краще, ніж просто використовувати одну гістограму та визначити тиждень як проходження з неділі на суботу або яким-небудь іншим способом. Плюс, хоча деякі посилання вище звертаються до реалізацій для кругової відстані переїзду Землі, я не знаю жодного для R, який, мабуть, є найбільш вживаною мовою тут.


3
г1,,г7гi

@JiK: хороший момент, і той, що також трапився зі мною після втрати зв’язку вчора. Я уточнив свою відповідь, щоб підкреслити, що це хакерська, а не справжня кругова відстань земляного руху.
Стефан Коласа

1
Велике спасибі, адже мені вдалося реалізувати відстань кругового переміщення Землі в R за допомогою пакету emd та emd2d, визначивши власну дистанційну функцію, тому не потрібно було використовувати хак, про який ви згадали. Це саме те, що я шукав! Ще одна дрібниця: як мені це назвати? Як Тім сказав вище, я не повинен називати цю рівномірність. Яка була б відповідна назва цього евристичного?
EBartrum

1
L2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.