Кластеризація просторових даних в R


12

У мене є набір щомісячних даних про температуру поверхні моря (SST), і я хочу застосувати певну методологію кластеру для виявлення регіонів з подібними моделями SST. У мене є набір щомісячних файлів даних, що працюють з 1985 по 2009 рік, і я хочу застосувати кластеризацію до кожного місяця як перший крок.

Кожен файл містить сітчасті дані для 358416 точок, де приблизно 50% є землею та позначені значенням 99,99, яке буде NA. Формат даних:

   lon     lat   sst
-10.042  44.979  12.38
 -9.998  44.979  12.69
 -9.954  44.979  12.90
 -9.910  44.979  12.90
 -9.866  44.979  12.54
 -9.822  44.979  12.37
 -9.778  44.979  12.37
 -9.734  44.979  12.51
 -9.690  44.979  12.39
 -9.646  44.979  12.36

Я спробував метод кластеризації CLARA і отримав деякі, мабуть, непогані результати, але мені також здається, що це просто згладжування (групування) ізоліній. Тоді я не впевнений, що це найкращий метод кластеризації для аналізу просторових даних.

Чи існує якийсь інший метод кластеризації, присвячений цьому типу наборів даних? Деякі посилання було б добре почати читати.

Заздалегідь спасибі.


2
Ви повинні перевірити cran.r-project.org/web/views/Spatial.html . Є кілька пакетів, які мають право кластеру в назві, що, мабуть, зацікавило б.
Andy W

Ви знайшли хороший пакет R для кластеризації просторових даних?
каптан

@kaptan На жаль, я цього не зробив, і це один із
pacomet

Заголовок цього питання заплутано: , не ! R(x,y,T)R3R
GeoMatt22

Відповіді:


2

Існує різний підхід для масштабованого кластеризації, поділу та підкорення підходу, паралельного кластеризації та інкрементального. Це для загального підходу після використання звичайних методів кластеризації. Існує хороший метод кластеризації, який я дуже ціную, це DBSCAN (Просторове кластеризація програм на основі густини) із застосуванням шуму - це один з найбільш використовуваних алгоритмів кластеризації.


Гаразд, я шукаю DBSCAN і спробую. Спасибі
pacomet

Якщо вам допомогла якась відповідь або ви знайдете інший спосіб, то краще надати нам, тож усі громади скористаються цим. Або виберіть відповідь, щоб закрити питання, thx.
404Dreamer_ML

Вибачте за затримку з відповіддю, але справа в тому, що у мене не так багато часу, щоб спробувати dbscan, і перші спроби спричинили проблему з пам'яттю. R каже, що не може виділити вектор. Я починаю з 4-кілометрової сітки з 779191 балами, яка закінчується в 300000 балів при видаленні наземних (не дійсних) точок SST. Можливо, я не отримую правильного підходу, будь-який натяк буде вдячний.
пакомет

1
Привіт, я ще не можу знайти рішення. Я прочитав деякі документи про DBSCAN і маю деякі питання. Як знайти мінімальну відстань за допомогою R? Оскільки мої дані - це тривимірна довгота, широта та температура, яку "відстань" я повинен використовувати? який розмір пов'язаний з цією відстані? температура? Чи існує метод визначення мінімальної кількості балів для кластера? Шукаючи Thorugh Google, я не міг знайти приклад R для використання dbscan у наборі даних, подібних до мого, ви знаєте який-небудь веб-сайт із подібними прикладами? Тож я можу читати і намагатися адаптуватися до своєї справи. Ще раз
дякую

0

PySAL - це добре документована бібліотека пітонів для просторового аналізу, яка має певну кластеризацію .

Ще одна бібліотека пітонів на стадії розробки, яка зосереджена на просторовій кластеризації, - це clusterPy (презентація слайдів у форматі PDF) .

З більш обмеженим вибором алгоритмів кластеризації, але з приємним інтерфейсом відображення є програмне забезпечення GUI GeoGrouper .


Дякую, я ніколи не працював з python. Я спробую знайти рішення R
pacomet
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.