Я докторант геофізики і працюю з великою кількістю даних про зображення (сотні ГБ, десятки тисяч файлів). Я добре знаю svn
і git
ціную історію проекту в поєднанні з можливістю легко працювати разом і захищати від корупції на диску. Я вважаю git
також надзвичайно корисним для постійних резервних копій, але я знаю, що git не може ефективно обробляти велику кількість бінарних даних.
У своїх магістерських роботах я працював над наборами даних однакового розміру (також зображень) і мав багато проблем із відстеженням різної версії на різних серверах / пристроях. Відмінність 100 Гб по мережі насправді не задоволення, і це коштувало мені багато часу і сил.
Я знаю, що схожі проблеми мають і інші в науці, але я не зміг знайти хорошого рішення.
Я хочу використовувати сховища свого інституту, тому мені потрібно щось, що може використовувати "тупий" сервер. Я також хотів би мати додаткову резервну копію на портативному жорсткому диску, тому що я хотів би уникати передачі сотень Гб по мережі, де це можливо. Отже, мені потрібен інструмент, який може обробляти більше ніж одне віддалене місце.
Нарешті, мені дуже потрібно щось, що може використовувати інший дослідник, тому це не потрібно бути надто простим, але має бути вивченим за кілька годин.
Я оцінив багато різних рішень, але жодне, здається, не відповідає законопроекту:
- svn дещо неефективний і потребує розумного сервера
- рт.ст. большой_файл / largefile може використовувати тільки один пульт дистанційного керування
- git bigfile / media також може використовувати лише один пульт, але це також не дуже ефективно
- Мабуть, горище не має журналу чи інших можливостей
- bup виглядає дійсно добре, але для роботи потрібен "розумний" сервер
Я спробував git-annex
, що робить все, що для цього потрібно (і багато іншого), але це дуже важко у використанні і недостатньо задокументовано. Я користувався ним кілька днів і не міг обернутись головою, тому сумніваюся, що будь-який інший колега буде зацікавлений.
Як дослідники поводяться з великими наборами даних та які інші дослідницькі групи використовують?
Щоб було зрозуміло, мене насамперед цікавить, як інші дослідники поводяться з цією ситуацією, а не лише з цим конкретним набором даних. Мені здається, що майже всі повинні мати цю проблему, але я не знаю нікого, хто її вирішив. Чи повинен я просто зберігати резервну копію оригінальних даних і забути всі ці елементи керування версіями? Це те, що роблять усі інші?