Потрібен набір даних GPS-траєкторії орієнтиру?


13

Я шукаю набір даних GPS-орієнтиру, доступний для наукових цілей безкоштовно. Я знайшов набір даних GeoLife GPS Trajectories від Microsoft Research, але я вважаю його трохи неповним.

Мені потрібні дані про GPS-активності людини, як у (широті, довготі, даті) кортежі, відслідковуються щонайменше кілька місяців, бажано безперервно. Я також хотів би, щоб записи були неширокими; не більше 1 хвилини між кожним записом.

Я дуже вдячний, якщо ви можете вказати мені на такий надійний набір даних.


2
Чи повинен цей набір даних бути по-людськи? (Те, як ви все-таки формулювали все, означає, що так, але я не думаю, що це було прямо сказано.)
Dan S.

Відповіді:


17

Я думаю, що найкращим шансом буде відстежити себе. Якщо ця ідея вас хвилює, це причина, коли ви не знайдете таких даних публічно ніде.


6

Найкраще, що я можу придумати, - це GPS-сліди, доступні в OpenStreetMap. Вони не збираються бути безперервними, але їх є велика кількість.

На веб-сайті OSM виберіть "GPS Traces", щоб ознайомитись із наявними для певної області.


2
Я вважаю, що це посилання, яке ви пропускаєте у відповіді: blog.openstreetmap.org/2012/04/01/bulk-gps-point-data
Dror Atariah

4

Я б не затримував дихання. Дані з такою точністю були б величезною справою і мали б величезні наслідки для конфіденційності (навіть якщо лише на 30 днів для однієї особи, яка включала б 43200 точок даних (якщо записуються щохвилини), і, безсумнівно, визначали б місце розташування).

Якщо ви зацікавлені в суттєвих питаннях щодо того, що такі дані будуть містити цю пораду, це не допоможе. Але якщо вас цікавить лише якийсь тип аналітичної стратегії поводження з такими масивними даними, ви повинні мати можливість просто імітувати дані в такому масштабі, щоб вони відповідали будь-яким вашим цілям. Для імітації даних я б запропонував вам поглянути на статистичну програму R, зокрема на шпагат та пакет поїздки (а також на всі просторові модулі в R).

Я б скептично ставився, навіть дані про відстеження тварин відповідали б вашим вимогам до точок даних за такі короткі проміжки часу. Я міг би перерахувати кілька прочитаних статей, в яких використовуються дані мобільного телефону для оцінки моделей людської активності, але жодна, яку я прочитав, не з’явиться десь поблизу від такого часу або часто вимірює активність людей.


4

Один з варіантів - скласти договір і найняти багато людей. Забезпечте їх GPS-пристроями, налаштованими на зчитування даних із необхідними даними, достатньо батарей для продовження контракту та інструкцій (підключіть його за допомогою цього кабелю, щоб завантажувати щоночі, надсилайте мені цей файл тощо).

Вам обов'язково потрібно буде записати в договорі, як ви обмежите розповсюдження даних та анонімізуйте їх для захисту (можливо, передбачте радіус відставання в півмилі навколо пунктів, за якими людина вказує, що є приватними), і ви можете навіть розглянути можливість придбання страхування від збитків. Якби сліди активності людей стали публічними, вони наповнюватимуться інформацією на кшталт: "Я виходжу на роботу щоранку о 7:00 та приходжу додому щовечора о 19:00", і сюжет виглядатиме як зосереджена гігантська зірочка про їхній будинок з вимогою "пограбуйте це місце між 8:00 та 18:00" Ви можете зрозуміти, чому вам потрібно піклуватися про конфіденційність та безпеку.

Якщо ви думаєте про це, ви запитуєте деякі дуже дорогі дані. І без статистично достатньо великого набору це матиме сумнівну цінність. Подумайте, як відрізняються сліди між будівельним працівником (новий повторюваний маршрут після кожної закінченої будівлі), поштовим перевізником (дуже повторюваний і дуже змієвий маршрут), офісним працівником (в основному прямим маршрутом, що повторюється) та евакуатором водій (нові маршрути постійно.) Соціально-економічний статус може вплинути на сліди: нижчі доходи можуть більше слідувати за лініями громадського транспорту та менше подорожувати. Батьки дітей шкільного віку можуть мати середній вищий кілометр після роботи. Не кажучи вже про хлопця, який керує автомобілями Google Street View.

Жоден із цих слідів, ймовірно, не може перетинати будь-який з інших у будь-який змістовний спосіб.

Кількість унікальних стилів, ймовірно, буде кінцевою, але настільки великою, що вимагає значного бюджету для отримання. І це було б лише в одному місті.

Можливо, ви зможете отримати менший (дешевший) набір даних, якщо ви краще визначили цілі. Якщо ви намагаєтеся кількісно оцінити різні типи моделей, можливо, ви вибираєте широке коло людей у ​​різних містах. Якщо ви намагаєтеся розібратися, хто виграє від масового транзиту або де прокладати залізничні коридори, вам, мабуть, краще рахувати вагони на різних дорогах навколо району, який ви плануєте обслуговувати та проводити опитування.


2

Я також шукаю точний тип набору даних, який ви шукаєте. На жаль, поки що я її ще не знайшов. Незважаючи на дані GeoLife, ще одне знайдене нами джерело - CRAWDAD . На сайті є GPS-журнали з кабіни Сан-Франциско, а також пішоходи Нью-Йорка. На жаль, для пішоходів NYC вони передбачають лише відносні координати, а не лат / лон.


2

Існує багато дослідницьких тем, де дані, необхідні для відповіді на питання, недоступні з моральних причин, і експерименти, які перевищують ці межі, можуть призвести до майбутніх обмежень, як це було в експерименті Мілграма . Зовсім недавно AOL довелося витягувати корпус пошукових запитів через проблеми конфіденційності, і єдиний надійний набір даних, який ми маємо щодо звичок електронної пошти, отримав із випробування Enron .

Тож хоча цілком технічно можливо отримати такий набір даних про траєкторію, це може ніколи не бути практичним через наслідки щодо конфіденційності. Як зазначалося в інших відповідях, відносні набори даних, агрегація за окремими особами або моделювання можуть бути кращими підходами до вирішення вашого питання, уникаючи при цьому проблеми конфіденційності.



2

Відкритий проект PFLOW пропонує:

відкритий набір даних для масового руху людей у ​​містах

Столичний район Токіо доступний, а столиця міста Чюкіо, здається, готується.

Деталі можна знайти в останній публікації:

Такехіро Кашіяма, Янбо Панг, Йошіхіде Секімото, Відкрите PFLOW: Створення та оцінка відкритого набору даних для масового руху людей у ​​містах, Транспортні дослідження Частина С: Нові технології (2017), том 85, сторінки 249–267.


Набір даних траєкторії T-Drive - це нещодавня знахідка. Він передбачає:

однотижневі траєкторії 10 357 таксі. Загальна кількість точок у цьому наборі даних становить близько 15 мільйонів, а загальна відстань траєкторій досягає 9 мільйонів кілометрів.


Незважаючи на рухи людини, компанія Liquid Robotics надає цікавий набір даних зі свого завдання PacX . Дані про місцезнаходження і датчиків навколишнього середовища показання чотирьох роботів планерів плавання через Тихий океан доступні для скачування . Більше інформації про (дуже класний) проект у блозі , через WIRED та цю розмову .


Ще одним варіантом вирішення питань конфіденційності є використання даних відстеження тварин. Я думаю, що тут захист даних буде менше проблем. Як перевагу, ви все ще зможете протестувати своє програмне забезпечення / методи з реальними даними про рух у світі. Недоліком може бути те, що якщо у вашій програмі потрібні "конкретні" людські рухи - вони можуть не відповідати вашим цілям.

Подивіться на Movebank або Дриада сайтів , щоб перевірити , якщо деякі з них даних може поміститися в ваш проект.


Що стосується даних iphone, згаданих Метью , ви можете ознайомитись із проектами натовпу та відкритими шляхами . Можливо, є спосіб отримати сомедати через них? Оновлення: обидва посилання, здається, тепер мертві.


Ще один варіант - просторова частина даних таксі Кріс Хонг про таксі . Вони надають лише місця збору та виїзду, проте обсяг (11 ГБ!) Та контекстна інформація (вартість проїзду, пасажири тощо) роблять їх дійсно привабливими (альтернативне завантаження , додаткова інформація про проблеми конфіденційності, викликані даними).


У публікації Уршки Демшар у своєму нещодавньому документі "Аналіз людської мобільності за допомогою даних про добровільний рух та контекстну інформацію" обіцяє:

Незабаром буде доступний безкоштовний набір даних про добровільні GPS-траєкторії, пов'язані з цим документом. Слідкуйте за налаштуваннями.

( детальніше )

Оновлення: папір згадує, що дані будуть доступні на CRAWDAD, згаданому @ejel, але я там його не знайшов.


Іншим варіантом може бути створення синтетичного набору даних самостійно . Якщо вам потрібен натхнення, перегляньте нещодавній документ від van Dijk J (2018) Визначення точок активності та подорожей з GPS-даних з декількома вікнами, що рухаються Комп'ютери, довкілля та міські системи ( посилання ). Більш детальна інформація надана в додатку до документа, а набір даних із кодом та прикладом доступні на github .


1

Тахіна Експедиція (Блог Google Планета Земля) http://www.tahinaexpedition.com/map зараз плаває навколо більшої частини минулого року.

KML може бути оброблений http://maps.google.com/maps/ms?source=embed&hl=en&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [був перетворений трек GPS на км.


@Mapperez - Дякую, Mapperez, але те, що мені потрібно, трохи інше. Мені б хотілося, щоб щоденні, хвилинні хвилини записані GPS-точки людини на суші. Людина з розпорядком дня (дещо рутиною) - наче встає, ходить на роботу, проводить там години, ходить по магазинах, приходить додому, повторюється.
Мурат

1

Люди надають ці дані Google цілодобово. Це називається Latitude. Можливо, вони поділяться ним так щедро, як і користувачі поділилися ним з ними.


1
Я, звичайно, сподіваюся, що вони цього не зроблять. Я впевнений, що їм не дозволять оприлюднювати будь-які дані на рівні, необхідному додатку @ Murat.
underdark
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.