Як можна виміряти нерівномірність розподілу?


28

Я намагаюся придумати метрику для вимірювання нерівномірності розподілу для експерименту, який я виконую. У мене є випадкова змінна, яка повинна бути рівномірно розподілена в більшості випадків, і я хотів би мати можливість визначити (і, можливо, виміряти ступінь) прикладів наборів даних, де змінна не рівномірно розподілена в межах деякої межі.

Приклад трьох серій даних, кожен з 10 вимірювань, що представляють частоту виникнення чогось, що я вимірюю, може бути приблизно таким:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Я хотів би мати можливість відрізняти розподіли на зразок c від таких, як a і b, і вимірювати відхилення c від рівномірного розподілу. Окрім того, якщо є показник того, наскільки рівномірний розподіл (стд. Відхилення, близьке до нуля?), Я, можливо, можу використовувати його для розрізнення з великою дисперсією. Однак у моїх даних може бути лише одна або дві люди, що переживають, як на прикладі c вище, і я не впевнений, що це буде легко виявити таким чином.

Я можу щось зламати, щоб це зробити в програмному забезпеченні, але шукаю статистичні методи / підходи, щоб виправдати це формально. Я брав заняття років тому, але статистика - це не моя область. Це здається чимось, що повинно мати відомий підхід. Вибачте, якщо що-небудь із цього повністю кісткове. Спасибі заздалегідь!


Відповіді:


18

χ2

Є й інші можливі підходи, такі як обчислення ентропії кожної серії - рівномірний розподіл максимізує ентропію, тому, якщо ентропія є підозріло низькою, ви б зробили висновок, що ви, мабуть, не маєте рівномірного розподілу. Це працює як міра рівномірності в якомусь сенсі.

Ще однією пропозицією було б використовувати такий захід, як розбіжність Куллбека-Лейблера , який вимірює схожість двох розподілів.


У мене є кілька запитань щодо вашої відповіді: 1. Чому ви заявляєте, що чі-квадрат не дає міри рівномірності? Чи не є тест на придатність з рівномірним розподілом мірою рівномірності? 2. Як ми можемо знати, коли слід використовувати чи-квадрат, або ентропію?
kanzen_master

@kanzen_master: Я гадаю, що статистику хі-квадрат можна розглядати як міру рівномірності, але вона має деякі недоліки, такі як відсутність конвергенції, залежність від довільно розміщених бункерів, що кількість очікуваних підрахунків у клітинках потребує бути достатньо великим і т. д. Який захід / тест використовувати, є питанням смаку, і ентропія також не має своїх проблем (зокрема, існує багато різних оцінок ентропії розподілу). Мені ентропія здається менш довільною мірою і її легше інтерпретувати.
MånsT

8

Окрім хороших ідей @MansT, ви можете запропонувати інші заходи, але це залежить від того, що ви маєте на увазі під "нерівномірністю". Щоб зробити це просто, давайте розглянемо 4 рівні. Ідеальну рівномірність легко визначити:

25 25 25 25

але що з наступного є більш неоднорідним?

20 20 30 30 або 20 20 25 35

або вони однаково неоднакові?

якщо ви вважаєте, що вони однаково неоднакові, ви могли б використовувати міру, засновану на сумі абсолютних значень відхилень від норми, масштабованих на максимально можливе. Тоді перший - 5 + 5 + 5 + 5 = 20, а другий - 5 + 5 + 0 + 10 = 20. Але якщо ви вважаєте, що другий є більш неоднорідним, ви можете використовувати щось на основі квадратних відхилень, у цьому випадку перший отримує 25 + 25 + 25 + 25 = 100 і другий отримує 25 + 25 + 0 + 100 = 150.


1
Ви, здається, інтерпретуєте "рівномірно розподілений" як "рівний", Пітер. Чи є це наміром ОП - це вагомий момент, який потрібно підняти, але насправді має з'явитися як коментар до питання.
whuber

Привіт @whuber Це, здавалося, було те, що він мав на увазі, з питання. Що ще це може означати?
Пітер Флом - Відновіть Моніку

2
F(x)=1xμF(x)=0x<μF(x)=(xα)/θx[α,α+θ]
whuber

@whuber, мені здається, перше, що ближче до того, що під початковим плакатом мав на увазі "форма". Подивившись на це знову, здається, що він / вона використовували "рівномірний", щоб означати "низька дисперсія".
Макрос

Ось тільки це, Макро: насправді сказати не можна. Питання потребує уточнення, перш ніж воно заслуговує на відповідь, ІМХО. Прийнята відповідь дозволяє припустити, що ОП використовується "єдиний" у стандартному статистичному сенсі.
whuber

6

11d1d

1d1

01nd1d1n

1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

0.00280.00510.4529

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
Lp

@whuber, що я не знаю, і я не знаю жодного дослідження з цього приводу. В основному це те, що я використовував як евристичний, що може відповідати тому, що відбувається після оперативної роботи, і я насправді не заявляю, що це переважний підхід.
користувач495285

@whuber - Не могли б ви теоретично розібратися, чому це так добре працює. Мені це потрібно процитувати.
Кетан

@ user495285 - Це, здається, працює безпосередньо зі значеннями, а не лише частотами. З вашого досвіду, чи краще використовувати його лише з частотами, чи добре використовувати його безпосередньо на векторі.
Кетан

L2χ2

0

Натрапили на це нещодавно, і щоб додати відповідь від @ user495285, наскільки я це розумію:

RnLppRnp

L2p

nd1d1
nL2d

Я вважаю, що корисність геометричних мір застосовується тоді, коли кожне положення (розмірність) описаного простору передбачається вимірювати на еквівалентних шкалах, наприклад, всі підрахунки потенційно рівного розподілу. Тут, мабуть, такі ж припущення, що лежать в основі зміни баз, як PCA / SVD, схожі. Але знову ж таки я не математик, тому залишу це відкритим для більш обізнаних.


Звучить корисно. Не могли б ви вказати мені якусь посилання, щоб я зрозумів це краще? Мені потрібно це цитувати.
Кетан

Ви можете навести будь-який текст лінійної алгебри, який охоплює норму Lp; це дуже поширений предмет геометрії: як обчислити відстань між двома точками в N-мірному просторі. Можливо, вам навіть не доведеться цитувати це залежно від вашої галузі.
lakinsm
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.