Як перевірити рівномірність у кількох вимірах?


13

Тестування на рівномірність - це щось загальне, проте мені цікаво, які способи зробити це для багатовимірної хмари точок.


Цікаве запитання. Чи розглядаєте ви незалежні записи?

1
@Procrastinator Я зараз думаю про цей момент. Намагаючись розібратися, чи можна мати рівномірність без незалежності. Будь-який натяк вітається.
gui11aume

4
Так, можливе однаковість без незалежності. Наприклад, зразок з одиниці -куби, генеруючи рівномірну сітку ϵ -кубів, що охоплюють R n і компенсують її походження за рівномірного розподілу на ϵ кубі. Утримуйте центри тих ϵ -кубів, що потрапляють в одиничний куб. Якщо вам подобається, підпробовуйте їх довільно. Усі бали мають однакові шанси на вибір: розподіл рівномірний. Результат також виглядає рівномірним, але оскільки жодна дві точки не може бути на відстані ϵ одна від одної, очевидно, бали не є незалежними. nϵRnϵϵϵ
whuber

Відповіді:


14

Стандартний метод використовує функцію K Ріплі або щось, що походить від нього, наприклад функцію L. Це графік, який підсумовує середню кількість сусідів точок як функцію максимальної відстані ( ). Для рівномірного розподілу в n розмірах цей середній показник повинен вести себе як ρ n : і завжди буде малим ρ . Він відхиляється від такої поведінки через кластеризацію, інші форми просторової незалежності та крайові ефекти (звідки важливо вказати регіон, відібраний за балами). Через це ускладнення - яке погіршується, як нρnρnρnзбільшується - у більшості застосувань смуга довіри встановлюється для нульової функції К за допомогою симуляції, і спостережувана функція K перенасичена для виявлення екскурсій. Маючи деяку думку та досвід, екскурсії можна інтерпретувати як тенденції до скупчення чи не на певних відстанях.

Фігура 1

Приклади функції K та пов'язаної з нею L-функції від Dixon (2001), ibid. Функція L побудована так, що для рівномірного розподілу є горизонтальною лінією в нулі: хороша візуальна орієнтир. Штрихові лінії - це смуги довіри для даної досліджуваної області, обчислені за допомогою моделювання. Суцільний сірий слід - це функція L для даних. Позитивна екскурсія на відстані 0-20 м вказує на деяке скупчення на цих відстанях.L(ρ)ρ

Я розмістив відпрацьований приклад у відповідь на відповідне запитання на /stats//a/7984 , де графік, похідний від K-функції для рівномірного розподілу на двовимірному колекторі, вбудованому в є оцінюється за допомогою моделювання.R3

В R, функціонування шпателяkest і k3estобчислити K-функцію для і n = 3 відповідно. У більш ніж 3 вимірах ви, мабуть, самі по собі, але алгоритми були б абсолютно однакові. Ви можете зробити обчислення з дистанційної матриці так, як обчислили (з помірною ефективністю) .n=2n=3stats::dist


ви коли-небудь з'ясовували зв’язок між броунівським мостом та сюжетами, які ви показуєте у відповіді, на яку ви посилаєтесь?
gui11aume

13

Виявляється, питання складніше, ніж я думав. Проте я робив домашнє завдання і, оглянувши навколо, знайшов два способи, крім функцій Ріплі, для перевірки рівномірності в кількох вимірах.

Я зробив R-пакет, який називається, unfщо реалізує обидва тести. Ви можете завантажити його з github за посиланням https://github.com/gui11aume/unf . Значна частина його знаходиться в C, тому вам потрібно буде скласти її на своїй машині R CMD INSTALL unf. Статті, на яких базується реалізація, є у форматі pdf у пакеті.

χ2

library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392

Другий підхід є менш традиційним і використовує мінімально простягнуті дерева . Початкові роботи були виконані Friedman & Rafsky в 1979 році (посилання в упаковці), щоб перевірити, чи походять два багатоваріантні зразки з одного розподілу. Зображення нижче ілюструє принцип.

рівномірність

Точки від двох біваріантних зразків нанесені на червоний або синій колір, залежно від їх початкового зразка (ліва панель). Обчислюється мінімальне прольотове дерево об'єднаного зразка у двох вимірах (середня панель). Це дерево з мінімальною сумою довжини ребер. Дерево розкладається в підрядках, де всі точки мають однакові мітки (права панель).

На малюнку нижче я показую випадок, коли сині крапки об’єднуються, що зменшує кількість дерев в кінці процесу, як ви бачите на правій панелі. Фрідман і Рафський обчислили асимптотичний розподіл кількості дерев, яку отримує в процесі, що дозволяє виконати тест.

нерівномірність

Ця ідея створити загальний тест на рівномірність багатовимірного зразка була розроблена Смітом і Джайном у 1984 році та реалізована Бену Пфафом у С (посилання в упаковці). Другий зразок генерується рівномірно у наближеному опуклому корпусі першого зразка, і тест Фрідмана та Рафського проводиться на пуці з двох зразків.

Перевага методу полягає в тому, що він перевіряє рівномірність кожної опуклої багатовимірної форми, а не тільки на гіперкубі. Сильним недоліком є ​​те, що тест має випадкову складову, оскільки другий зразок генерується навмання. Звичайно, можна повторити тест і порівняти результати, щоб отримати відтворювану відповідь, але це не зручно.

Продовжуючи попередній R сеанс, ось як це відбувається.

pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.

Сміливо скопіюйте / роздрібніть код з github.


1
Чудовий огляд, дякую! Для майбутніх поколінь я також вважав, що ця стаття є корисним "практичним" резюме (жодним чином не пов'язане з авторами).
Міньнер

3

(U,Z)UUniform(0,1)Z=U0<p<1W1pWUniform(0,1)U

nnχ2


1
2n

@whuber, я не думаю, що ми вирішили те, якою має бути мінімальна кількість комірок, а кілька вимірів не обов'язково означають, що тут великий. Може, ми просто маємо справу з 3 або 4.
Майкл Р. Черник

5
Ваша відповідь стає кориснішою для всіх читачів, коли ви окреслите її сферу та потенційну корисність. (Альтернативна стратегія, в дусі хорошого статистичного консультування, - використовувати коментарі, щоб запитати ОП про можливу кількість вимірів, а потім адаптувати свою відповідь на це.) (+1 для покращення.)
похвата

"Тоді зробіть тест \ Chi ^ 2 на рівномірність." - Чи можете ви, будь ласка, розширити це? У Wikipedia en.wikipedia.org/wiki/Pearson%27s_chi-squared_test є лише тест Chi2 на придатність придатності, однорідність та незалежність.
Ярослав Нікітенко
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.