Виміряйте рівномірність розподілу точок у 2D квадраті


11

У мене 2D квадрат, і всередині нього є набір точок, скажімо, 1000 точок. Мені потрібен спосіб побачити, чи розподілено точки всередині квадрата (або більш-менш рівномірно розподілено) чи вони мають тенденцію збиратися в якомусь місці всередині квадрата.

Мені потрібен математичний / статистичний (не програмуючий) спосіб для цього. Я погуглив, знайшов щось на кшталт пристосованості, Колмогорова тощо, і просто цікавлюсь, чи існують інші підходи для досягнення цього. Це потрібно для класового паперу.

Вхідні дані: 2D квадрат і 1000 точок. Вихід: так / ні (так = рівномірно розтікається, ні = збирається разом у деяких плямах).


1
Ви недостатньо чітко сформулювали те, що для вас "одноманітно розподілено". Ви маєте на увазі рівномірний кахельний 2D рівномірний куб чи щось інше? Наприклад, рівномірно розташований ланцюжок точок? чи коло точок? У певному сенсі ці фігури теж є рівномірними спредів.
ttnphns

3
@ttnphns У цьому контексті "уніформа" має усталене умовне значення. Він відповідає процесу Пуассона з постійною інтенсивністю. Його часто називають «КСВ», абсолютно просторово випадковим .
whuber

2
@Van Ви хочете дослідити "просторові точкові процеси". Хорошими ключовими словами є функція "Ріплі К", "КСВ" та "Пуассон". Доступною довідкою для вас буде O'Sullivan & Unwin, Geographic Information Analysis. Класикою є Ріплі, просторова статистика : вона зосереджена на точкових процесах. Щодо додатків, швидко погляньте на CrimeStat . Якщо вам подобається R, є багато інструментів для цього завдання .
whuber

Відповіді:


5

Я думаю, що ідея @John про тест чи = квадрат - це один із способів.

Ви хочете, щоб виправлення на 2-d, але ви хотіли б протестувати їх, використовуючи тест 1-квадратного чі-квадрата; тобто очікувані значення для комірок будуть де N - кількість комірок.1000N

Але можливо, що різна кількість клітин дасть різні висновки.

Інша можливість полягає в тому, щоб обчислити середню відстань між балами, а потім порівняти це з імітованими результатами цього середнього. Це дозволяє уникнути проблеми довільної кількості комірок.

EDIT (більше про середню відстань)

Маючи 1000 очок, є попарні відстані між точками. Їх можна обчислити (використовуючи, скажімо, евклідову відстань). Ці відстані можна усереднювати.10009992

Тоді ви можете генерувати N (велику кількість) наборів з 1000 точок, які розподілені рівномірно. Кожен з цих N наборів також має середню відстань між точками.

Порівняйте результати за фактичними балами з змодельованими балами або для отримання p-значення, або просто, щоб побачити, куди вони падають.


Я погоджуюсь, що один зразок chi-квадрата ("тест на хі-квадрат") є серед розумних способів. Але чи можете ви детальніше розглянути детальну пропозицію щодо "відстані"? Я не зовсім це зрозумів.
ttnphns

@ttnphns, ті, які використовуються в просторовому аналізі, - це найближчий тест сусідів (також тест Кларка і Еванса), або Ріплі К. Перегляньте приклади шпателів бібліотеки R або документацію CrimeStat . Інша можливість, заснована на моделюванні, - це тести "сканування", але вони не базуються на середніх відстанях.
Енді Ш

3

Інша можливість - тест Chi-Squared. Розділіть квадрат на однакові за розміром неперекриваються патчі та протестуйте підрахунки точок, що потрапляють у патчі, на їх очікувані підрахунки за гіпотезою рівномірності (очікування на виправлення становить total_points / total_patches, якщо всі вони однакового розміру) , і застосуйте тест-чи-квадрат. Для 1000 балів має бути достатньо 9 патчів, але ви можете використовувати більш детальну залежність від того, як виглядають ваші дані.


1
Я думаю, що ви хочете щось, але користь придатного чи-квадрата, порівнюючи фактичні підрахунки в кожній клітині з очікуваним підрахунком рівних комірок, було б те, що ви хотіли б. Використання тесту на випадок надзвичайних ситуацій НЕ перевірятиме, чи не було рівномірного розподілу між вашими клітинками, лише якщо рядок залежав від стовпця.
Джон

Крім того, тест чі-квадрата скаже вам, лише якщо вони не були б однаковими у вибраних клітинках. Не скаже тобі, чи були вони однакові.
Джон

Так, я мав на увазі підрахунки проти їх очікуваних підрахунків під нульовою гіпотезою рівномірності, мої вибачення, якщо це було не ясно. Ви можете просто уявити його як таблицю, яка допомагає зрозуміти, що відбувається для непосвячених! І очевидно, ви обмежилися тестуванням на вибрані клітини, а не однаковістю в абстрактному сенсі
Бен Еллісон

@John, як правило, коли це робиться "тест на дисперсію", як правило, робиться двосторонній тест. Якщо ви дійсно хотіли подивитися, чи закономірність була більш рівномірною, ніж очікувалося випадково, ви можете просто подивитися, чи переконався чи тест-квадрат в лівий хвіст розподілу (при будь-якому відрізку, який ви віддаєте перевагу).
Енді Ш

Енді, ти повинен дати відповідь, яка детально описує цей двосторонній тест на придатність. Зазвичай двосторонні тести просто перевіряють дві різні альтернативи нулю, але все ще не можуть продемонструвати нуль. Ваша пропозиція інтригуюча.
Джон

1

Чому б не скористатися тестом Колмогорова-Смірнова? Це я би зробив, особливо враховуючи, що розмір вашого зразка достатньо великий, щоб компенсувати відсутність енергії.

Крім того, ви могли б зробити симуляцію. Це не суворо, але це дає певні докази того, чи є дані розподілені рівномірно.


@whuber 2-мірне розширення KS добре відоме (див. тут ). У цьому випадку ми досліджуємо, чи ці 1000 малюнків (координат (x, y)) можна було б отримати з двовимірного спільно рівномірного розподілу - принаймні так я читаю "рівномірно розподілився". @John Я, можливо, незграбно висловився (ні математика, ні англійська мова не є моєю першою мовою). Я мав на увазі те, що точне р-значення можна обчислити за допомогою тесту, такого як KS, тоді як значення p (або що ви називаєте еквівалент) має тенденцію до асимптотики лише під час моделювання.


Чому моделювання не буде суворим?
Джон

1
Чи можете ви пояснити, як тест KS - який призначений для наборів реальних чисел, які вважаються результатами безперервної випадкової змінної - застосовуватиметься до цього просторового набору даних?
whuber

@whuber Я відредагував свою відповідь, щоб спробувати надати відповіді на вашу відповідь. Найкраще.
абауман

@John Я намагався пояснити, що я мав на увазі. Найкраще.
абауман
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.