Чи можна використовувати координати GPS (широту та довготу) як функції в лінійній моделі?


10

У мене є набори даних, які містять серед багатьох функцій координати GPS (широта та довгота). Я хотів би використовувати ці набори даних для дослідження таких проблем, як: (1) обчислення ETA для руху між початковою та кінцевою точками; та (2) оцінка кількості злочину для конкретного пункту.

Я хотів би використовувати лінійну регресійну модель. Однак чи можу я використовувати ці координати GPS безпосередньо у лінійній моделі?

Широта і довгота не мають порядкової властивості , як, наприклад, з віком людини. Наприклад, два пункти (40.805996, -96.681473) та (41.226682, -95.986587) не здаються значущими впорядкованими. Вони просто точки в просторі. Я думав замінити їх на категоричні поштові індекси в США, а потім зробив гаряче кодування , але це призведе до безлічі змінних.


1
Чи потрібно використовувати їх безпосередньо ? Ви чули про засоби зонування, такі як алгоритм AZP від ​​S. Openshaw? Ви навіть можете вручну розмежувати регіони на карті, щоб розділити регіони / зони, якщо область відносно однакова.
Мефі

@Mephy: Це означало б, що я перетворюю lat / long в зони, правда? Але тоді я мав би сотні чи тисячі категоричних зон, як і поштові індекси. Мені доведеться все-таки гаряче кодувати їх.
stackoverflowuser2010

Залежить від того, як ви вирізаєте зони, звичайно. Якщо ви вибрали "південь від екваторіальної лінії / на північ від екваторіальної лінії", то це лише два. Багато алгоритмів зонування мають деякі гіперпараметри для визначення величин, таких як кількість зон або мінімальний розмір зони.
Мефі

У мене те саме питання. Я хочу спрогнозувати позицію людей. Я проаналізував усі функції геолокації у навчальних даних. Після цього LabelDecoder використовується для перетворення функції категоричного розташування. Нарешті, результат жахливий. Чи є якась гарна ідея розібратися з просторовим прогнозуванням?
berisfu

Відповіді:


5

Ви не можете їх безпосередньо використовувати, оскільки навряд чи існує справжня лінійна залежність, якщо ви не прагнете передбачити "наскільки хтось на схід чи північ". Як згадується в коментарях, вам потрібно перетворити їх на зони. Якщо ви хочете зробити це дуже просто, ви можете використовувати алгоритм кластеризації kNN з низькою кількістю потенційних кластерів, а потім призначити кожному екземпляру нову функцію з ідентифікатором кластера, а потім однокольоровим кодуванням цього.

Ви також можете прочитати про те, як люди інтерполюють координати для прогнозування значень на цілій карті. Перший приклад - із температурними станціями, але ви також можете уявити, що це "гарячі зони" для злочину.

( DOCS )


2

Ви можете робити все, що завгодно, але якщо ваша модель не передбачає температуру або різницю у часі, я не можу придумати жодної іншої цільової змінної, яка залежить виключно від координат.

Можливо, ви хочете зробити це - використовувати зовнішнє джерело даних та збагатити свої дані країною / поштовим індексом / кліматом / іншими географічними особливостями, які допоможуть вашій моделі працювати.


0

Координати GPS можна безпосередньо перетворити на геогас . Geohash ділить Землю на "відра" різного розміру залежно від кількості цифр (короткі коди Geohash створюють великі області та довші коди для менших областей).

Геогаш - це єдине число, яке можна використовувати як функцію в моделі.

Geohash стосується лише всього світу, поштові індекси - ні.


Вихід геогенератора - це рядок, а не одне число, правда? І якщо geohash - це рядок, то мені доведеться його однозначно кодувати, що призведе до безлічі змінних, як і з однокольоровим закодованим поштовим індексом.
stackoverflowuser2010

Геогаш - це єдине число, закодоване в базі 32. Немає підстав для 1-гарячого кодування. Виберіть рівень точності та введіть відповідну кількість цифр.
Брайан Шпірінг

Я бачив лише строкові зображення геогазів. Однак, навіть якби геогази були представлені як довгий int, чи існує лінійна залежність між ними для використання у лінійній моделі? Саме в цьому і полягає мій оригінальний питання.
stackoverflowuser2010

Взаємовідносини між геохашами трохи складні - en.wikipedia.org/wiki/Geohash#Design
Брайан Шпірінг

1
Існує багато способів інженерії функцій поза лінійним та гарячим кодуванням. Наприклад, хитрість ядра або перетворення Гельмерта.
Брайан Шпірінг
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.