Порівнюючи дві структури просторових точок?


41

Якщо у мене є два точкових розподіли в одному географічному регіоні, як би я візуально та кількісно порівняв ці два розподіли?

Припустимо також, що у мене є багато точок у меншому регіоні, тому просто відображення шпильової карти є малоінформативним.

Відповіді:


32

Як завжди, це залежить від ваших цілей та характеру даних. Для повністю відображених даних потужним інструментом є функція L Ріплі, близький родич K-функції Риплі . Багато програмного забезпечення може обчислити це. ArcGIS може це зробити вже зараз; Я не перевіряв. CrimeStat це робить. Так що GeoDa і R . Приклад його використання із пов’язаними картами наведено в

Сінтон, DS і У. Хубер. Картографування польки та її етнічної спадщини у Сполучених Штатах. Журнал географії Вип. 106: 41-47. 2007 рік

Ось скріншот версії "L функція" версії "Ріплі" K:

Знімок екрана К-функції Ріплі

Синя крива документує дуже невипадкове розподіл точок, оскільки вона не лежить між червоною та зеленою смугами, що оточують нуль, саме там має лежати синій слід для L-функції випадкового розподілу.

Для вибіркових даних багато що залежить від характеру вибірки. Хорошим ресурсом для цього, доступним для тих, хто має обмежений (але не зовсім відсутній) досвід математики та статистики, є підручник Стівена Томпсона про вибірки .

Як правило, більшість статистичних порівнянь можна проілюструвати графічно, а всі графічні порівняння відповідають або пропонують статистичний аналог. Тому будь-які ідеї, отримані у статистичній літературі, ймовірно, запропонують корисні способи відображення або графічним порівнянням двох наборів даних.


Дякую за папір Dixon, здається, це прекрасний ресурс. Я ніколи не стикався з різницею між просторовою взаємодією та випадковим маркуванням для багатозмінних моделей. Мені потрібно буде прочитати.
Andy W

+1 Хороші ресурси. Тож старий риболовецький істин про те, що "90% риби знаходиться в 10% озера" насправді залежить від способу відбору проб?
Кірк Куйкендалл

@Kirk Для багатьох із нас 0% риби знаходяться в 10% озера, до якого насправді вдається дістатися!
whuber

14

Примітка. Наступне було відредаговано після коментаря whuber

Ви можете скористатися підходом до Монте-Карло. Ось простий приклад. Припустимо, ви хочете визначити, чи розподіл подій злочинів A є статистично подібним подіям B, ви могли б порівняти статистику між подіями A і B з емпіричним розподілом такого заходу для випадково призначених «маркерів».

Наприклад, враховуючи розподіл A (білий) та B (синій),

введіть тут опис зображення

Ви випадковим чином призначаєте мітки A і B на ВСІ точки в об'єднаному наборі даних. Це приклад єдиного моделювання:

введіть тут опис зображення

Ви повторюєте це багато разів (скажімо, 999 разів), і для кожного моделювання ви обчислюєте статистику (середній показник найближчого сусіда в цьому прикладі), використовуючи випадково помічені точки. Наступні фрагменти коду знаходяться в R (вимагає використання бібліотеки шпателів ).

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

Потім можна графічно порівняти результати (червона вертикальна лінія є початковою статистикою),

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

введіть тут опис зображення

або чисельно.

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

Зауважте, що середня статистика найближчого сусіда може бути не найкращим статистичним показником вашої проблеми. Статистика, така як K-функція, може бути більш показовою (див. Відповідь Валера).

Вищезазначене може бути легко реалізовано всередині ArcGIS за допомогою Modelbuilder. У циклі довільно переставляючи значення атрибутів до кожної точки, а потім обчислюйте просторову статистику. Ви повинні мати можливість підрахувати результати в таблиці.


2
Ви можете розглянути тест перестановки замість підходу до щільності ядра, Менні. Нульова гіпотеза полягає в тому, що сині та білі мітки не залежать від точок. Щоб перевірити це, прийняти статистику, відповідну для мікрорайону (наприклад, середня відстань між блакитними та білими крапками, подорожуючи вулицями). Випадково перепризначте кольори всім крапкам, зберігаючи однакові кількості синього та білого, та перерахуйте статистику. Повторіть багато разів, щоб оцінити нульовий розподіл статистики. Подайте фактичне значення статистики до цього розподілу, щоб отримати p-значення.
whuber

Дякую шубер. Мені ніколи не спадало на думку розглядати це як помітну проблему. Я оновив свою відповідь, щоб відобразити такий підхід. Однак мені незрозуміло, чому мій оригінальний підхід (тобто використання сітки щільності ядра для генерації випадкових точок) призвів до іншого результату. Насправді це (моє оригінальне рішення) не вірно відображало факту того, що і А, і В походять із подібного процесу. Це тому, що підхід до щільності ядра не використовує деталі, надані нам точковими даними?
MannyG

1
Щільність ядра має невеликий довільний елемент до неї (пов'язана з вибором половини ширини). Це може змінити значення. Це також дещо відсторонено від того, що відбувається насправді: є базовий процес отримання точок; ви бачите одну реалізацію цього процесу; ви створюєте KDE з нього ; то ви отримуєте нові реалізації з цього KDE. Насправді ви просто відтворюєте нові конфігурації, схожі на єдину конфігурацію, яку ви спостерігаєте. У підході до перестановки нульова гіпотеза про те, що обидва розподілу однакові, виправдовує перебіг маркування: це прямо і потужно.
whuber

1
Дякую за вклад, я дам більш повний коментар, коли матиму більше часу. Було б добре відзначити цей код R (ви навіть у відповіді згадували, що це R-код?), І він використовує функції в spatstatпакеті.
Енді Ш

2
+1, одна з приємних речей щодо використання перестановочних тестів, як це 1), коли обмежена специфікою геокодера (діапазон адреси або адреси для даних про злочини в більшості обставин), оцінювання точкових шаблонів порівняно з повною просторовою випадковістю теж не робить багато сенсу. 2) Такі тести на перестановку уникають проблем з крайовими ефектами. Звичайно, це занадто узагальнення, але я вважаю, що такі рамки можна узагальнити для оцінки багатьох різних типів статистичних точок.
Andy W

4

Ви можете перевірити CrimeStat.

За даними веб-сайту:

CrimeStat - це програма просторової статистики для аналізу місць злочинів, розроблена компанією Ned Levine & Associates, яка фінансувалася грантами Національного інституту юстиції (гранти 1997-IJ-CX-0040, 1999-IJ-CX-0044, 2002-IJ-CX-0007 та 2005-IJ-CX-K037). Програма базується на Windows і має інтерфейс з більшістю настільних GIS-програм. Метою є надання додаткових статистичних інструментів для надання допомоги правоохоронним органам та дослідникам кримінального правосуддя в їх здійсненні щодо картографування злочинів. Злочинний стан застосовується багатьма відділами поліції по всьому світу, а також кримінальним правосуддям та іншими дослідниками. Остання версія - 3.3 (CrimeStat III).


2

Простим і швидким підходом може бути створення теплових карт та карта різниці цих двох теплових карт. Пов'язане: Як створити ефективні теплові карти?


3
На жаль, розмежування двох інтерпольованих або згладжених карт має тенденцію розповісти вам набагато більше про метод інтерполяції або згладжування, ніж про дані :-(. Якщо ви повинні інтерполювати, подбайте про те, щоб зробити це добре (наприклад, krige після виконання EDA і варіографії) і просто інтерполюйте один із наборів даних. Ви можете порівняти фактичні дані в одному наборі з інтерпольованими значеннями іншого, тим самим усуваючи половину помилки порівняння двох інтерпольованих карт. Зверніть увагу, що інтерполяція не є дійсною для багатьох видів даних, і згладжування не підходить для інші види даних.
whuber

Я згоден, що цей метод не підходить для багатьох видів вхідних даних. Я думаю, що це може справити гарне перше враження при аналізі моделей щільності точок.
underdark

Я не сумніваюся, ви праві, коли інтерполяцію проводить експерт і тлумачить розумно.
whuber

2

Припустимо, ви переглянули літературу про просторову автоматичну кореляцію. ArcGIS має різні інструменти для точок та натискань, щоб зробити це для вас за допомогою скриптів Toolbox: Інструменти просторової статистики -> Аналіз шаблонів .

Ви могли б працювати назад - Знайдіть інструмент і перегляньте алгоритм, реалізований, щоб побачити, чи відповідає він вашому сценарію. Я використовував індекс Морана колись назад, досліджуючи просторові взаємозв'язки в появі ґрунтових мінералів.


2

Можна визначити двовимірний кореляційний аналіз у багатьох статистичних програмних програм, щоб визначити рівень статистичної кореляції між двома змінними та рівнем значущості. Потім можна створити резервну копію статистичних висновків, зіставивши одну змінну за допомогою схеми хлороплета, а іншу змінну за допомогою градуйованих символів. Після накладення ви зможете визначити, у яких областях відображаються просторі / високі, високі / низькі та низькі / низькі. У цій презентації є кілька хороших прикладів.

Ви також можете спробувати кілька унікальних програм для геовізуалізації. Мені дуже подобається CommonGIS за такий тип візуалізації. Ви можете вибрати околиці (ваш приклад), і вся корисна статистика та сюжети будуть доступні вам відразу. Це робить аналіз різних змінних карт досить легким.


2
Це хороші ідеї, але я помічаю, що приклади, на які ви посилаєтесь, є успішними, оскільки атрибути відповідають загальним наборам функцій. У цьому питанні функції мають різні місця, і ці місця є випадковими змінними (наприклад, не фіксованими адміністративними одиницями). Це важливі ускладнення, тому що зараз нам потрібно знайти якусь змістовну процедуру, щоб співвідносити значення в одному місці з тими в інших місцях, і нам потрібно впоратись із випадковим характером локацій.
whuber

Дякую за пояснення! Я неправильно прочитав ОП і припустив, що це стосується двох незалежних змінних, які поділяють місцеположення / географічний ступінь (як у DA / CT тощо)
Michael Markieta

1

Для цього чудово підійде квадратовий аналіз. Це GIS-підхід, здатний виділити та порівняти просторові зразки різних точкових шарів даних.

Контур квадратового аналізу, який кількісно визначає просторові зв’язки між декількома шарами даних даних, можна знайти на веб- сайті http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdf .


1
(1) Посилання - це 404 (саме тому ми просимо відповіді включати резюме всіх посилань). (2) Наскільки точно квадратовий аналіз порівнював би два точкові розподіли ?
whuber

(1) Посилання може працювати зараз. (2) Квадратний аналіз ділить задану область на одиниці однакового розміру, розміром відповідно. Потім використовується ймовірнісний аналіз для визначення фактичної частоти точок у кожному квадраті проти очікуваного значення для кожної частоти. Використовуючи команду товщини точок та зонову статистику як інструменти таблиць у розширенні просторового аналітика для ArcMap, ми можемо виділити області, що знаходяться в безпосередній близькості від точок високої щільності, на додаток до узагальнення цих класів особливостей точок для регресійного аналізу.

Ви описали процедуру одновимірного аналізу точкових розподілів. Він може бути адаптований (шляхом оцінки квадратових кореляцій) для порівняння ступеня співзвучності двох процесів, але зазнає двох значних обмежень. По-перше, він не вивчає взаємозв’язків між процесами як функції відстані; по- друге, Біннінг точки в quadrats вона втрачає силу. Втрата сили означає, що ви не зможете визначити важливі закономірності, інакше це означає, що вам потрібно зібрати більше даних для досягнення цілей розслідування.
whuber

Я використовував цю "процедуру" для багатоваріантного аналізу точкових розподілів. Незважаючи на те, що це означає втрату потужності, воно також забезпечує спосіб візуально та кількісно порівняти два розподіли точкових шаблонів на унікальних рівнях агрегації (тут вирішується вихідний питання).

Я сподіваюся, що те, що ви читаєте на нашому сайті, надихає вас розглянути альтернативні підходи в майбутньому: вони розширять вашу здатність максимально використовувати ваші дані та обмежені ресурси дослідження.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.