Які формати даних найкращі для розповсюдження відкритих даних?


15

Які плюси та мінуси різних форматів даних (продуктивність, розмір файлів тощо) при розгляді відкритого розподілу даних?

Наша організація хоче публікувати дані як відкриті дані. Однак немає чіткої ідеї, які формати даних використовувати. Звичайно, чим «відкритіший» формат даних, тим простіше його використовувати.

Які формати даних є найбільш "відкритими" і, отже, найбільш зручними для розповсюдження відкритих даних при врахуванні таких типів ?:

  • растрові дані (я думаю: GeoTIFF, Erdas Imagine IMG?)
  • векторні дані (я думаю: GML, CSV, ESRI Shapefile, DXF?)
  • табличні дані (я думаю: CSV?)
  • 3D-дані (я думаю: CityGML?)
  • 3D точкові банки / LIDAR (я думаю: LAS?)
  • я щось тут забуваю?

Крім того, якщо є документація про відкриті формати даних, я дуже зацікавлений, чи бажаєте ви поділитися ними.


2
для вектора ви можете також розглянути geojson та kml
neuhausr

1
Ви бачили це посилання? gis.stackexchange.com/questions/61744/…

4
Вам потрібно розрізняти формати обміну даними та формат зберігання даних. Наприклад, geojson - відмінний формат обміну даними, але він є форматом зберігання даних. Я припускаю, що ви стурбовані лише форматом розповсюдження даних (тобто обміном даними). Це правильно?
Devdatta Tengshe

@DevdattaTengshe: Добрий момент! Наразі наміром є поширення даних у найбільш зручному форматі обміну.
Марк Вершур

Дякую всім за відгуки. Крім того, кілька порад щодо типів файлів для використання розміру файлу проти дуже корисні.
Марк Верщур

Відповіді:


5

Ініціатива відкритих даних міста Відня ( http://data.wien.gv.at ) використовує Geoserver для надання доступу до растрових та векторних геоданих через сервіси Geoserver WMS та WFS . Це має багато переваг: Користувачі можуть завантажувати дані в різних форматах для використання в режимі офлайн (наприклад, geojson, KML або блискавки Shapefiles) або користуватися послугами в реальному часі, вставляючи їх в онлайн-карти чи проекти ГІС.


Це те, що ми робимо тут: maps.gcc.tas.gov.au/data Немає причини, чому ви також не можете використовувати GeoServer для непросторових таблиць.
Алекс Лейт

5

Для табличного csv. Excel в кращому випадку надмірно складний, а в гіршому - абсолютно недоступний. Доступ недоступний, а PDF - це ляпас.

Для геопросторового використання geojson це добре підтримуваний текст і не має технічних обмежень, які має єдиний інший життєздатний формат (shapefile). Крім того, якщо у вас немає дуже вагомих причин, це має бути в WGS84, маючи на увазі, що більшість користувачів перебувають в іншому стані і не захочуть плані стану.


5

Мені дуже подобається NetCDF за безперервні дані / масиви (тобто растри). Плюси для NetCDF такі:

  • NetCDF самоописується (тобто визначення даних доступні через заголовок файлу), тому вам не потрібно вводити вторинні файли метаданих
  • NetCDF4 дозволяє зберігати n-мірні дані (використовуючи формат даних HDF5 на диску, що є бонусом, оскільки це дозволяє файлам розміром з вашою ОС). Це відбувається з розумним стисненням і швидким доступом до даних. Зауважте, що NetCDF3 не підтримує n-мірні дані та має обмеження розміру файлу приблизно 2 Гб в 32-бітній системі.
  • NetCDF - це відкритий формат, тому доступ до даних, як правило, не є проблемою, а також через загальні бібліотеки. Наприклад, у python досить просто від scipy прочитати фрагмент даних:
from scipy.io import netcdf
f = netcdf.netcdf_file('source.nc')
print(nc.dimensions) #take a look at the dimensions of the data
print(nc.variables)  #A dictionary containing all the variables
nc.variables["some_data"].dimensions #The dimensions this variable is in, e.g. lat, lon
out_array = nc.variables["some_data"].data
f.close() #and we're done

Єдиний недолік NetCDF4, який я бачу, - це не дуже велика підтримка стандартних GIS-пакетів, таких як ArcGIS та QGIS (хоча я дуже хотів би це виправити!).

EDIT Деякі інші пакети, які підтримують NetCDF

Деякі стандартні мови програмування, які підтримують NetCDF (хоча справедливо, все, що може читати HDF, може читати NetCDF4):

Для користувачів математики та статистики ви маєте:

Зокрема у ГІС:

  • GDAL конвертуватиме дані для вас
  • Так само FME
  • ArcGIS підтримує NetCDF (хоча це не найкращий рівень підтримки в моєму досвіді)
  • У розробці є плагін QGIS

Якщо ви хочете швидко подивитися файл NetCDF, я б використовував міжплатформенний Panoply від NASA. А якщо вас цікавить більше, UCAR Unidata має список програмного забезпечення .


NetCDF - це жахливий вибір, він дійсно не має підтримки за межами python. Він може мати гарну підтримку, але tiffs, png та jpeg мають підтримку буквально на кожній мові.
Кальвін

2
Я категорично не згоден. Я відредагував свою відповідь вище, щоб показати швидкий список пакетів, які підтримують NetCDF. На мій досвід, це формат вибору для будь-яких багатовимірних наукових даних (наприклад, астрономія та метеорологія). PNG і TIFF не погані для розповсюдження растрових даних, і, звичайно, перегляд даних простий, але вони не дуже масштабують велику кількість багатовимірних даних. Чи не коли - або використовувати JPEG для поширення наукових даних (хоча , якщо ви відправляєте кому -то карту він працює відмінно).
om_henners

4

Я б сказав:

  • Shapefiles або GML для векторних даних
  • .obj-файли для 3D-моделей
  • .xyz (простий CSV) для хмарних точок
  • CSV для табличних даних
  • GeoTIFF для растрових даних

Ці формати легко читаються програмним забезпеченням з відкритим кодом та легко перетворюються у будь-який інший формат, необхідний для конкретних програм.

Також +1 для відкриття даних!


2
Мені буде цікаво дізнатися, чому ви запропонували Shapefiles та GML для векторних даних. Обидва вони страшні формати. Єдине заощадження GML полягає в тому, що це формат OGC.
Devdatta Tengshe

1
Shapefiles читаються у багатьох програмах і можуть без проблем перетворюватися на щось інше. Що б ти запропонував?
til_b

3
уникайте форм-файлів. Вони працюють, але мають серйозні технічні обмеження.
ніки

1
Отже, що ви припускаєте, що не має технічних обмежень формфилей?
til_b

2
@til_b GeoTIFF - це приємний формат з точки зору "відкритості". Однак для зберігання (або пропонування його як завантаження) це жахливо, тому що файли можуть отримати величезну кількість. Чи знаєте ви про відкритий растровий формат, який пропонує стиснення без втрат?
Марк Верщур

1

Практично таке саме запитання виникло на opendata.SE: Які найкорисніші формати для випуску геопросторових даних?

Тож, сподіваюся, я не порушую жодної політики, цитуючи там свою власну відповідь:

Мій досвід створення карт з досить кількох наборів даних:

Для точкових даних найкращим є CSV із стовпцями "lat" та "lon". Дуже просто працювати з широким спектром інструментів, включаючи текстові редактори, електронні таблиці тощо. Є два мінуси:

  1. GDAL вимагає .vrtсупровідного файлу.
  2. Іменування стовпців latта і lonне зовсім стандартне. Багато інструментів є досить ліберальними в тому, що вони приймають.

Для ліній та багатокутників у порядку зменшення переваг:

  1. GeoJSON. Легка робота з ними та можливість редагування в текстовому редакторі або за допомогою geojson.io - справжній бонус, якщо вам потрібно здійснити пошук / заміну, видаліть пару дивних об’єктів або скопіюйте та вставте з одного файлу в інший. Ще одна перевага полягає в тому, що розробники, які не є ГІС, можуть це зрозуміти. Тільки проблеми, з якими я стикався, - це коли хтось надає дані, наприклад, MultiPoint, а не Point.
  2. Shapefile. Дуже широко підтримується, але з двома незручними моментами. По-перше, це набір файлів, тому вам доведеться пройти .zip і витягнути його. По-друге, імена полів обмежені 10 символами. Їх важко відредагувати для вашої середньої особи, яка не є ГІС.
  3. KML / KMZ. Вони часто мають багато невідповідних криптовалют (стилів, піктограм тощо), а атрибути інколи кодуються як міні-HTML таблиці, з якими дуже важко працювати. Принаймні, ви можете легко їх редагувати за допомогою інструментів Google.

Чесно кажучи, хоча найкраща відповідь - це, мабуть, "усі вони". Зробіть всім прихильність і випустіть дані у CSV (якщо крапка), GeoJSON, блискавці Shapefile та KMZ.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.