У мене є дані для мережі метеостанцій по всій території США. Це дає мені кадр даних, який містить дату, широту, довготу та деяке вимірюване значення. Припустимо, що дані збираються раз на день та керуються регіональною погодою (ні, ми не збираємось вступати в цю дискусію).
Я хотів би показати графічно, як співвідносяться одночасно виміряні значення в часі та просторі. Моя мета - показати регіональну однорідність (або її відсутність) цінності, яка досліджується.
Набір даних
Для початку я взяв групу станцій в районі Массачусетса та Мен. Я вибрав сайти за широтою та довготою з індексного файлу, який доступний на FTP-сайті NOAA.
Відразу ви бачите одну проблему: є багато сайтів, які мають подібні ідентифікатори або дуже близькі. FWIW, я ідентифікую їх за допомогою кодів USAF та WBAN. Заглянувши глибше до метаданих, я побачив, що вони мають різні координати та висоти, і дані зупиняються на одному місці, а потім починаються на іншому. Отже, оскільки я не знаю нічого кращого, я мушу ставитися до них як до окремих станцій. Це означає, що дані містять пари станцій, дуже близьких один до одного.
Попередній аналіз
Я спробував згрупувати дані за календарним місяцем, а потім обчислити звичайну найменшу регресію квадратів між різними парами даних. Потім будую співвідношення між усіма парами у вигляді лінії, що з'єднує станції (нижче). Колір лінії показує значення R2 від пристосування OLS. Далі на малюнку показано, як співвідносяться дані 30+ за січень, лютий тощо між різними станціями в зоні, що цікавить.
Я написав основні коди, так що середньодобова оцінка обчислюється лише за наявності точок даних кожні 6 годин, тому дані повинні бути порівнянними на сайтах.
Проблеми
На жаль, є просто занадто багато даних, щоб мати сенс для одного сюжету. Це неможливо виправити, зменшивши розмір ліній.
Мережа здається занадто складною, тому я думаю, що мені потрібно знайти спосіб зменшити складність або застосувати якесь просторове ядро.
Я також не впевнений, що є найбільш підходящим показником для відображення кореляції, але для цільової (нетехнічної) аудиторії коефіцієнт кореляції від OLS може бути найпростішим для пояснення. Можливо, мені доведеться представити ще якусь інформацію, наприклад градієнт або стандартну помилку.
Запитання
Я вивчаю свій шлях у цю сферу та R одночасно, і буду вдячний для пропозицій щодо:
- Яка формальніша назва того, що я намагаюся зробити? Чи є корисні терміни, які дозволять мені знайти більше літератури? Мої пошуки складають пробіли для того, що має бути загальним додатком.
- Чи існують більш відповідні методи показу кореляції між кількома наборами даних, розділеними в просторі?
- ... зокрема, методи, які легко візуально показують результати?
- Чи реалізується будь-яке з цих програм у R?
- Чи піддається якомусь із цих підходів автоматизація?