Кластеризація просторових даних в R

У мене є набір щомісячних даних про температуру поверхні моря (SST), і я хочу застосувати певну методологію кластеру для виявлення регіонів з подібними моделями SST. У мене є набір щомісячних файлів даних, що працюють з 1985 по 2009 рік, і я хочу застосувати кластеризацію до кожного місяця як перший крок.

Кожен файл містить сітчасті дані для 358416 точок, де приблизно 50% є землею та позначені значенням 99,99, яке буде NA. Формат даних:

   lon     lat   sst
-10.042  44.979  12.38
 -9.998  44.979  12.69
 -9.954  44.979  12.90
 -9.910  44.979  12.90
 -9.866  44.979  12.54
 -9.822  44.979  12.37
 -9.778  44.979  12.37
 -9.734  44.979  12.51
 -9.690  44.979  12.39
 -9.646  44.979  12.36

Я спробував метод кластеризації CLARA і отримав деякі, мабуть, непогані результати, але мені також здається, що це просто згладжування (групування) ізоліній. Тоді я не впевнений, що це найкращий метод кластеризації для аналізу просторових даних.

Чи існує якийсь інший метод кластеризації, присвячений цьому типу наборів даних? Деякі посилання було б добре почати читати.

Заздалегідь спасибі.

r clustering spatial

— пакомет
джерело

Ви повинні перевірити cran.r-project.org/web/views/Spatial.html . Є кілька пакетів, які мають право кластеру в назві, що, мабуть, зацікавило б.

— Andy W

Ви знайшли хороший пакет R для кластеризації просторових даних?

— каптан

@kaptan На жаль, я цього не зробив, і це один із

— pacomet

Заголовок цього питання заплутано: , не !

(x, y, T) \in R^{3}

$(x,y,T)\in\mathbb{R}^3$

R

$\mathbb{R}$

— GeoMatt22

Відповіді:

Існує різний підхід для масштабованого кластеризації, поділу та підкорення підходу, паралельного кластеризації та інкрементального. Це для загального підходу після використання звичайних методів кластеризації. Існує хороший метод кластеризації, який я дуже ціную, це DBSCAN (Просторове кластеризація програм на основі густини) із застосуванням шуму - це один з найбільш використовуваних алгоритмів кластеризації.

— 404Dreamer_ML
джерело

Гаразд, я шукаю DBSCAN і спробую. Спасибі

— pacomet

Якщо вам допомогла якась відповідь або ви знайдете інший спосіб, то краще надати нам, тож усі громади скористаються цим. Або виберіть відповідь, щоб закрити питання, thx.

— 404Dreamer_ML

Вибачте за затримку з відповіддю, але справа в тому, що у мене не так багато часу, щоб спробувати dbscan, і перші спроби спричинили проблему з пам'яттю. R каже, що не може виділити вектор. Я починаю з 4-кілометрової сітки з 779191 балами, яка закінчується в 300000 балів при видаленні наземних (не дійсних) точок SST. Можливо, я не отримую правильного підходу, будь-який натяк буде вдячний.

— пакомет

Привіт, я ще не можу знайти рішення. Я прочитав деякі документи про DBSCAN і маю деякі питання. Як знайти мінімальну відстань за допомогою R? Оскільки мої дані - це тривимірна довгота, широта та температура, яку "відстань" я повинен використовувати? який розмір пов'язаний з цією відстані? температура? Чи існує метод визначення мінімальної кількості балів для кластера? Шукаючи Thorugh Google, я не міг знайти приклад R для використання dbscan у наборі даних, подібних до мого, ви знаєте який-небудь веб-сайт із подібними прикладами? Тож я можу читати і намагатися адаптуватися до своєї справи. Ще раз

— дякую

PySAL - це добре документована бібліотека пітонів для просторового аналізу, яка має певну кластеризацію .

Ще одна бібліотека пітонів на стадії розробки, яка зосереджена на просторовій кластеризації, - це clusterPy (презентація слайдів у форматі PDF) .

З більш обмеженим вибором алгоритмів кластеризації, але з приємним інтерфейсом відображення є програмне забезпечення GUI GeoGrouper .

— b_dev
джерело

Дякую, я ніколи не працював з python. Я спробую знайти рішення R

— pacomet