Альтернативи hdf5


16

Я використовую HDF5 протягом багатьох років, але в міру збільшення розміру набору даних я починаю відчувати ті ж самі проблеми, які перераховані тут

http://cyrille.rossant.net/moving-away-hdf5/

Чи можете ви вказати мені такий формат, як HDF5, - Хороша підтримка паралельних записів - Підтримка чіткого доступу величезних матриць

Типовим випадком використання є ціла матриця 100k x 100k. Мені б хотілося, щоб це було цілим файлом з логічної точки зору, але мені потрібно записати його на шматок із паралельними працівниками.


3
Чи можете ви поясніть, які типи наборів даних вам потрібно експортувати? Це може бути корисно людям, які хочуть відповісти на ваше запитання. Я розглядав HDF5, а також netcfd. Але вони можуть бути більш орієнтовані на певні набори даних.
Чарльз

2
Стислий VTK підтримує шматки. Ви можете зберегти паралельно багато файлів і об'єднати їх разом, використовуючи метафайл PVD. Який розмір вашого набору даних?
Кшиштоф Бзовський

Після ваших змін - невідоме рішення VTK - це не дуже вдале рішення.
Кшиштоф Бзовський

Що ти в кінцевому підсумку використав?
aidan.plenert.macdonald

@ aidan.penert.macdonald Я зберігав hdf5, використовуючи паралельне записування з MPI. Але мені довелося відмовитися від Python
MG

Відповіді:


7

HDF5 певною мірою є файловою системою. Вводячи B-Trees і спосіб управління блоками, він дублює функціональність файлової системи. Коли ви запускаєте свій код, ви, ймовірно, запускаєте його в операційній системі з перевіреною і масштабованою файловою системою. Отже, я б запропонував записати ваші числові необроблені дані в один файл, використовуючи необроблений доступ до файлів або MPI-IO, а метадані (цінність, розмір, атрибути тощо) записати в окремий файл JSON або XML. Якщо у вас є кілька наборів даних, ви можете їх організувати в каталог або ієрархію каталогів. Коли ви хочете розподілити набір даних, вам просто потрібно спакувати його у файл ZIP.

Єдиний мінус полягає в тому, що вам доведеться самостійно впоратися з Endianness , що, однак, не важко .

Для натхнення про те, як це можна зробити, див. Dragly, et. ін. Фронт "А. Експериментальна структура каталогів (Exdir): Альтернатива HDF5 без введення нового формату файлів". Нейроінформ., 2018, 12 .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.