Як можна виміряти нерівномірність розподілу?

28

Я намагаюся придумати метрику для вимірювання нерівномірності розподілу для експерименту, який я виконую. У мене є випадкова змінна, яка повинна бути рівномірно розподілена в більшості випадків, і я хотів би мати можливість визначити (і, можливо, виміряти ступінь) прикладів наборів даних, де змінна не рівномірно розподілена в межах деякої межі.

Приклад трьох серій даних, кожен з 10 вимірювань, що представляють частоту виникнення чогось, що я вимірюю, може бути приблизно таким:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Я хотів би мати можливість відрізняти розподіли на зразок c від таких, як a і b, і вимірювати відхилення c від рівномірного розподілу. Окрім того, якщо є показник того, наскільки рівномірний розподіл (стд. Відхилення, близьке до нуля?), Я, можливо, можу використовувати його для розрізнення з великою дисперсією. Однак у моїх даних може бути лише одна або дві люди, що переживають, як на прикладі c вище, і я не впевнений, що це буде легко виявити таким чином.

Я можу щось зламати, щоб це зробити в програмному забезпеченні, але шукаю статистичні методи / підходи, щоб виправдати це формально. Я брав заняття років тому, але статистика - це не моя область. Це здається чимось, що повинно мати відомий підхід. Вибачте, якщо що-небудь із цього повністю кісткове. Спасибі заздалегідь!

— JJC
джерело

Пов’язано: stats.stackexchange.com/questions/66186/…

— b halvorsen

18

$\chi^2$

Є й інші можливі підходи, такі як обчислення ентропії кожної серії - рівномірний розподіл максимізує ентропію, тому, якщо ентропія є підозріло низькою, ви б зробили висновок, що ви, мабуть, не маєте рівномірного розподілу. Це працює як міра рівномірності в якомусь сенсі.

Ще однією пропозицією було б використовувати такий захід, як розбіжність Куллбека-Лейблера , який вимірює схожість двох розподілів.

— MånsT
джерело

У мене є кілька запитань щодо вашої відповіді: 1. Чому ви заявляєте, що чі-квадрат не дає міри рівномірності? Чи не є тест на придатність з рівномірним розподілом мірою рівномірності? 2. Як ми можемо знати, коли слід використовувати чи-квадрат, або ентропію?

— kanzen_master

@kanzen_master: Я гадаю, що статистику хі-квадрат можна розглядати як міру рівномірності, але вона має деякі недоліки, такі як відсутність конвергенції, залежність від довільно розміщених бункерів, що кількість очікуваних підрахунків у клітинках потребує бути достатньо великим і т. д. Який захід / тест використовувати, є питанням смаку, і ентропія також не має своїх проблем (зокрема, існує багато різних оцінок ентропії розподілу). Мені ентропія здається менш довільною мірою і її легше інтерпретувати.

— MånsT

8

Окрім хороших ідей @MansT, ви можете запропонувати інші заходи, але це залежить від того, що ви маєте на увазі під "нерівномірністю". Щоб зробити це просто, давайте розглянемо 4 рівні. Ідеальну рівномірність легко визначити:

25 25 25 25

але що з наступного є більш неоднорідним?

20 20 30 30 або 20 20 25 35

або вони однаково неоднакові?

якщо ви вважаєте, що вони однаково неоднакові, ви могли б використовувати міру, засновану на сумі абсолютних значень відхилень від норми, масштабованих на максимально можливе. Тоді перший - 5 + 5 + 5 + 5 = 20, а другий - 5 + 5 + 0 + 10 = 20. Але якщо ви вважаєте, що другий є більш неоднорідним, ви можете використовувати щось на основі квадратних відхилень, у цьому випадку перший отримує 25 + 25 + 25 + 25 = 100 і другий отримує 25 + 25 + 0 + 100 = 150.

— Пітер Флом - Відновити Моніку
джерело

1

Ви, здається, інтерпретуєте "рівномірно розподілений" як "рівний", Пітер. Чи є це наміром ОП - це вагомий момент, який потрібно підняти, але насправді має з'явитися як коментар до питання.

— whuber

Привіт @whuber Це, здавалося, було те, що він мав на увазі, з питання. Що ще це може означати?

— Пітер Флом - Відновіть Моніку

2

F (x) = 1

$F(x) = 1$

x \geq μ

$x\ge \mu$

F (x) = 0

$F(x) = 0$

x < μ

$x\lt \mu$

F (x) = (x - α) / θ

$F(x) = (x-\alpha)/\theta$

x \in [α, α + θ]

$x \in [\alpha, \alpha+\theta]$

— whuber

@whuber, мені здається, перше, що ближче до того, що під початковим плакатом мав на увазі "форма". Подивившись на це знову, здається, що він / вона використовували "рівномірний", щоб означати "низька дисперсія".

— Макрос

Ось тільки це, Макро: насправді сказати не можна. Питання потребує уточнення, перш ніж воно заслуговує на відповідь, ІМХО. Прийнята відповідь дозволяє припустити, що ОП використовується "єдиний" у стандартному статистичному сенсі.

— whuber

6

$1$ $\frac{1}{\sqrt d}$ $1$ $d$

$\frac{1}{\sqrt d}$ $1$

$0$ $1$ $\frac{n*\sqrt d - 1}{\sqrt d - 1}$ $n$

$1$

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

$0.0028$ $0.0051$ $0.4529$

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

— user495285
джерело

1

L_{p}

$L_p$

@whuber, що я не знаю, і я не знаю жодного дослідження з цього приводу. В основному це те, що я використовував як евристичний, що може відповідати тому, що відбувається після оперативної роботи, і я насправді не заявляю, що це переважний підхід.

— користувач495285

@whuber - Не могли б ви теоретично розібратися, чому це так добре працює. Мені це потрібно процитувати.

— Кетан

@ user495285 - Це, здається, працює безпосередньо зі значеннями, а не лише частотами. З вашого досвіду, чи краще використовувати його лише з частотами, чи добре використовувати його безпосередньо на векторі.

— Кетан

L_{2}

$L_2$

χ^{2}

$\chi^2$

0

Натрапили на це нещодавно, і щоб додати відповідь від @ user495285, наскільки я це розумію:

$\mathbb{R}^n$ $L_p$ $p$ $\mathbb{R}^n$ $p$

$L_2$ $p$

\frac{n \sqrt{d} - 1}{\sqrt{d} - 1}

$\frac{n\sqrt{d} - 1}{\sqrt{d} - 1}$

n

$n$

L_{2}

$L_2$

d

$d$

Я вважаю, що корисність геометричних мір застосовується тоді, коли кожне положення (розмірність) описаного простору передбачається вимірювати на еквівалентних шкалах, наприклад, всі підрахунки потенційно рівного розподілу. Тут, мабуть, такі ж припущення, що лежать в основі зміни баз, як PCA / SVD, схожі. Але знову ж таки я не математик, тому залишу це відкритим для більш обізнаних.

— лакінсм
джерело

Звучить корисно. Не могли б ви вказати мені якусь посилання, щоб я зрозумів це краще? Мені потрібно це цитувати.

— Кетан

Ви можете навести будь-який текст лінійної алгебри, який охоплює норму Lp; це дуже поширений предмет геометрії: як обчислити відстань між двома точками в N-мірному просторі. Можливо, вам навіть не доведеться цитувати це залежно від вашої галузі.

— lakinsm