Надійна альтернатива I Морану


19

Я Морана , міра просторової автокореляції, не є особливо надійною статистикою (вона може бути чутливою до перекошених розподілів атрибутів просторових даних).

Які ще надійні методи вимірювання просторової автокореляції? Мені особливо цікаві рішення, які легко доступні / реалізуються на мові сценаріїв, наприклад R. Якщо рішення стосуються унікальних обставин / розповсюдження даних, будь ласка, вкажіть їх у своїй відповіді.


EDIT : Я розширюю питання на кількох прикладах (у відповідь на коментарі / відповіді на початкове запитання)

Запропоновано, що методи перестановки (де розподіл вибірки Морана I генерується за допомогою процедури Монте-Карло) пропонують надійне рішення. Я розумію, що такий тест позбавляє від необхідності робити будь-які припущення щодо розподілу Морана I (з огляду на те, що на статистику тесту може впливати просторова структура набору даних), але я не бачу, як техніка перестановки виправляється не як правило розподілені дані атрибутів . Я пропоную два приклади: один демонструє вплив перекошених даних на I-статистику локального Морана, а другий на глобальний I-I-Moran навіть під час тестів на перестановку.

Я буду використовувати Чжан та ін. 's (2008) аналізує як перший приклад. У своїй роботі вони демонструють вплив розподілу атрибутів на локальний Moran I за допомогою перестановочних тестів (9999 моделювання). Я відтворив результати точок авторів для концентрації свинцю (Pb) (при рівні довіри 5%) за допомогою оригінальних даних (ліва панель) та журналу перетворення цих самих даних (права панель) у GeoDa. Також представлені скриньки вихідних концентрацій Pb та трансформованого журналом. Тут кількість значущих гарячих точок майже подвоюється, коли дані трансформуються; Цей приклад показує , що локальна статистика є чутливим до розподілу даних атрибутів - навіть при використанні методів Монте - Карло!

введіть тут опис зображення

Другий приклад (змодельовані дані) демонструє вплив перекошених даних на глобальний Іран Морана навіть при використанні тестів на перестановку. Наприклад, в R :

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Зверніть увагу на різницю P-значень. Скручені дані вказують на відсутність кластеризації на рівні 5% значущості (p = 0,167), тоді як нормально розподілені дані вказують на наявність (p = 0,013).


Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Використання місцевих Moran I і GIS для визначення точок забруднення Pb на міських ґрунтах Голвей, Ірландія, Science of the Total Environment, том 398, випуски 1–3, 15 липня 2008 , Сторінки 212-221


1
Чи є у вас посилання на чутливість до перекошених розподілів)? Вас цікавлять глобальні тести невипадкового просторового розподілу або виявлення локальних аномальних особливостей? Який розподіл результату відсотків (позитивна змінна кількість?)
Енді W

1
AndyW: 1) Одне посилання на чутливість тесту - «Просторовий аналіз Фортіна та Дейла», посібник для екологів »(стор. 125), 2) Мене цікавлять рішення як глобальних, так і локальних тестів, 3) Я не маю конкретних рішень на увазі розподіл даних.
MannyG

1
Енді, оскільки Іран Морану базується на оцінених зважених дисперсіях та коваріації, він буде мати таку ж чутливість до людей, що виживають, як і ці оцінки, яка (як відомо) є значною. Це розуміння також вказує на шлях до багатьох можливих рішень проблеми Менні: замініть улюблені надійні версії оцінок дисперсії та асоціацій, щоб сформувати надійну зважену кореляцію, і ви не працюєте.
whuber

1
Це здається, що ви, можливо, плутаєте кілька понять тут, @Andy. По-перше, Менні хоче виміряти автокореляцію; він не обов'язково проводить тест на гіпотезу. По-друге, питання з тестуванням гіпотез найкраще поставити з точки зору потужності, а не міцності. Але (третє) поняття мають зв'язок: надійний тест-статистика буде, як правило, зберігати свою владу в умовах широкого спектру порушень припущень щодо розповсюдження (наприклад, забруднення сторонніми людьми), тоді як нестабільна статистика тесту може втратити більшість або всі її сила в тих ситуаціях.
whuber

1
@ FC84, я переглянув це питання минулого року і написав запропоноване рішення. Але воно потребує перевірки. Я планую запропонувати (значно) зменшену версію цього написання як відповідь тут у якийсь момент. Сміливо поглядайте на те, що ви можете, з того, що я маю. Але використовуйте це обережно!
MannyG

Відповіді:


2

(На даний момент це занадто непросто, щоб перетворитись на коментар)

Це стосується локальних та глобальних тестів (не конкретних, вибіркових незалежних показників автокореляції). Я розумію , що я в конкретному Моране міра є зміщеною оцінкою кореляції (інтерпретуючи його в тих же умовах, що коефіцієнт кореляції Пірсона), я до сих пір не розумію , як тест перестановки гіпотези чутливий до вихідного розподілу змінного ( або з точки зору помилок типу 1 або 2).

Трохи адаптуючи код, який ви вказали в коментарі (просторові ваги colqueenбули відсутні);

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Коли хтось проводить тести на перестановку (в цьому випадку я люблю вважати це збігом простору), тест гіпотези про глобальну просторову автокореляцію не повинен впливати на розподіл змінної, оскільки модельований тестовий розподіл по суті зміниться з розподілом вихідних змінних. Ймовірно, можна було б запропонувати більш цікаві симуляції, щоб продемонструвати це, але як ви бачите в цьому прикладі, спостережувана тестова статистика знаходиться далеко поза генерованим дистрибутивом як для оригіналу, так PLUMBі для журналу PLUMB(що набагато ближче до звичайного розподілу) . Хоча ви можете побачити зареєстрований тестовий розподіл PLUMB під нульовим зрушенням ближче до симетрії приблизно 0.

введіть тут опис зображення

Я збирався запропонувати це як альтернативу в будь-якому випадку, перетворивши розподіл приблизно в нормальний. Я також збирався запропонувати шукати ресурси для просторової фільтрації (і аналогічно локальній та глобальній статистиці Getis-Ord), хоча я не впевнений, що це також допоможе в масштабі вільної міри (але, можливо, це буде корисним для тестів на гіпотези) . Я відправлю пізніше з потенційно більшою кількістю цікавої літератури.


Дякую Енді за ваш детальний рахунок. Якщо я вас правильно зрозумів, ви маєте на увазі, що в перестановковому тесті статистика тесту (I Морана) не зміниться відносно отриманого МС розподілу, але це не погоджується з моїми спостереженнями. Наприклад, якщо ми використовуємо змінну HOVAL в одному і тому ж наборі даних колумба, результуюче значення p тестування MC Moran I виходить від 0,029 (з вихідними перекошеними даними) до 0,004 (з перетвореними журналом даними), що вказує на розрив між MC Статистика розподілу та тесту - несуттєва, якби ми встановили поріг у 1%.
MannyG

1
Так, ви правильно трактуєте мою думку. Безумовно, можна знайти будь-який конкретний цикл, в якому результати відрізняються. Постає питання, чи однакові показники помилок за різних обставин.
Енді Ш
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.