Як знайти зв’язки між різними типами подій (визначеними їх двозначним розташуванням)?

У мене є набір даних про події, які сталися за той самий період часу. Кожна подія має тип (є кілька різних типів, менше десяти) та місцеположення, представлене у вигляді 2D точки.

Я хотів би перевірити, чи є кореляція між типом подій, або між типом та місцеположенням. Наприклад, можливо, події типу A зазвичай не відбуваються там, де відбуваються події типу B. А може, в якійсь місцевості в основному відбуваються події типу С.

Які інструменти я можу використовувати для цього? Будучи початківцем у статистичному аналізі, моя перша ідея полягала в тому, щоб використовувати цей PCA (аналіз основних компонентів) на цьому наборі даних, щоб побачити, чи має кожен тип подій свій компонент, чи, можливо, деякі поділяють одне і те саме (тобто співвідносяться)?

Я мушу зазначити, що мій набір даних складає близько 500000 балів , що робить речі трохи складнішими для вирішення. $(x, y, type)$

EDIT: Як зазначалося у відповідях нижче та коментарях, шлях для цього - це моделювати це як маркований процес, а потім використовувати R для виконання всіх важких підйомів, як детально пояснено у цьому звіті семінару: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai
джерело

Це растровий набір даних, як-от (оброблене) дистанційно почуте зображення, чи це неправильний набір даних?

— whuber

Ну, я думаю, ви б назвали це нерегулярним: це записи злочинів, які сталися у Великобританії протягом певного місяця, доступні тут: police.uk/data .

— Wookai

@Wookai 500 000 000 злочинів у Великобританії за один місяць ?? Чи спала анархія на Британські острови, про які не було повідомлено пресою, лише нарешті їх розкрили в поліцейських документах? :-) Я міг повірити приблизно на 1/100 цю суму - ледве.

— whuber

Нічого собі, мені дуже шкода цього "друкарського";)! Це фактично в 1000 разів менше, ніж 500 тис. Злочинів (рахуючи "злочини автомобіля", тобто швидкісні квитки тощо).

— Wookai

Так, R виглядає шляхом! Я знайшов дуже повний звіт семінару з модуля Spatstat R, який робить саме те, що я шукаю: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai

Відповіді:

Тип описаних вами даних звичайно називається "позначені схеми точок", R має перегляд задач для просторової статистики, який пропонує безліч хороших пакетів для цього типу аналізу, більшість з яких, ймовірно, не в змозі мати справу з тими гумогенними даними мати :(

Наприклад, можливо, події типу A зазвичай не відбуваються там, де відбуваються події типу B. А може, в якійсь місцевості в основному відбуваються події типу С.

Це два досить різного типу запитання: Другий запитує про позиціонування одного типу знака / події. Казкові слова, які слід шукати в цьому контексті, - це оцінка інтенсивності fe або оцінка K-функції, якщо вам цікаво виявити закономірності кластеризації (події такого роду, як правило, групуються разом) або відштовхування (події подібного типу, як правило, відокремлюються). Перший запитує про співвідношення різних типів подій. Зазвичай це вимірюється за допомогою функцій кореляції знаків.

Я думаю, що підгрупування даних для отримання більш простежуваного розміру даних небезпечно (див. Коментар до відповіді @ hamner), але, можливо, ви могли б зібрати свої дані: Розділіть вікно спостереження на керовану кількість комірок однакового розміру та підрахуйте кількість подій у кожен. Потім кожна клітина описується розташуванням її центру та 10-вектором рахується для ваших 10 типів знаків. Ви повинні мати можливість використовувати стандартні методи для маркованих точкових процесів у цьому агрегованому процесі.

— фабі
джерело

Я знайомий з помітними точковими процесами та деякими пов'язаними теоретичними інструментами, я повинен був подумати про це раніше. Дякую за ключові слова, чи є у вас, можливо, кілька покажчиків на них? Дякую також за ідею агрегації, у мене була схожа, спробую це зробити.

— Wookai

Пітер Діггл написав "геостатистику на основі моделі". На цій сторінці він також проаналізував дані злочинів у Ланкаширі: lancs.ac.uk/staff/diggle/MADE, які можуть дати вам добрі ідеї.

— fabians

По-перше, розмір набору даних. Я рекомендую взяти невеликі відстежувані зразки набору даних (або випадковим чином вибираючи N точок даних, або випадковим чином вибираючи кілька відносно невеликих прямокутників у площині XY та беручи всі точки, що потрапляють у цю площину), а потім наводити методи аналізу на цьому підмножині. Щойно ви маєте уявлення про форму аналізу, яка працює, ви можете застосувати її до більших частин набору даних.

PCA використовується в першу чергу як техніка зменшення розмірності; ваш набір даних - це лише три виміри (один з яких є категоричним), тому я сумніваюся, що він застосовуватиметься тут.

Спробуйте працювати з Matlab або R, щоб візуалізувати точки, які ви аналізуєте в площині XY (або їх відносну щільність, якщо працюєте з усім набором даних), як для окремих типів, так і для всіх типів у поєднанні, а також побачити, які візерунки виникають візуально. Це може допомогти провести більш жорсткий аналіз.

— Бенхамнер
джерело

Наскільки це підходить, залежить від того, що ви вже знаєте або припускаєте про ваш процес генерування даних. Субформація даних по регіонах (тобто зайняти всі точки в деякому заздалегідь визначеному меншому вікні) може бути небезпечною, якщо вона не є однорідною (тому що використання іншого вікна змінило б ваші висновки). Вибірка даних без урахування позиціонування для навчального набору призводить до «витончення» спостережуваного процесу та недійсних висновків, про які ви могли б зробити, наприклад, про діапазон кореляцій між позначками або процесами кластеризації / відштовхування.

— фабіян

Так, я знаю, що PCA призначений для зменшення розмірності, тому я був розгублений у тому, як я можу застосувати його до мого набору даних. Ідея полягала в тому, щоб побачити, чи має кожен тип події свій "напрям", чи деякі "поділяють один і той же напрямок". Але я думаю, я просто думав про співвідношення.

— Wookai