Яке середовище слід використовувати для довгострокового, великого обсягу, зберігання даних (архівне)?


59

Це питання надихнуло https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data . Були й інші подібні запитання, але жодне з однаковими критеріями.

Це два питання в одному.

  1. Як ви зберігаєте фінансові / критичні записи, які повинні пережити все, крім пожежі, і повинні бути доступні десятиліттями?
  2. Скажімо, я хочу зберігати сімейні фотографії та відео, і я хочу, щоб люди змогли знайти їх у сховищі через 100 років і все ще мати можливість їх використовувати. Як би це було зроблено?

Критерії

  1. Довгострокові означає 30 - літні гарантований . 100+ років в середньому. [Якщо це не практично, використовуйте найближче рішення]
  2. Високий об'єм означає пару терабайт.
  3. Відповіді можуть бути "безкомпромісними / промисловими" рішеннями або практичними рішеннями для домашнього офісу / користувача малого бізнесу.
  4. Медіа не будуть активними протягом періоду часу. (тобто, якщо ви запропонуєте жорсткі диски, вони не будуть крутитися).
  5. Крім того, не потрібно сподіватися на читання цих архівів. Вони знаходяться там для надзвичайних ситуацій або «для майбутніх поколінь».
  6. Не повинен вимагати технічного обслуговування (якщо це можливо).

Мої думки:

  1. CD-R / DVD-R зарекомендували мене, навіть в короткостроковій перспективі, жахливим середовищем для резервного копіювання. Вони здаються дуже крихкими і, здається, втрачають свої дані за дуже короткий час, навіть коли перебувають у незайманому стані.
  2. Я не можу не вважати, що зберігання даних на пару 1 ТБ HDD, а потім очікування, що вони закрутяться правильно через десять-два роки пізніше, буде жахливою ідеєю. Я помиляюся?
  3. Промислові стрічкові накопичувачі здаються життєздатним варіантом?

Я не експерт, але я б сказав стрічку. Це питання може бути кращим щодо помилок сервера, але я, чесно кажучи, не думаю, що він ідеально підходить для будь-якого, тому я відмовиться голосувати. Це гарне запитання і має десь жити.
Shinrai

Я згоден @Shinrai. Я радий перенести це кудись інше, якщо хтось може прокоментувати, де він повинен жити.
user606723

4
Якщо ви не хочете ніяких компромісів, існує існуюча технологія, розрахована на принаймні 40 000 років без втручання: voyager.jpl.nasa.gov/spacecraft/goldenrec.html
fixer1234

Майбутнє в кристалах, воно може потенційно зберігати 360 ТБ і прослужити мільйон років. Дивіться: 5D «Кристал пам’яті Супермена» віщує необмежену тривалість зберігання даних
kenorb

Відповіді:


20

Папір

Окрім архівної фарби на архівному папері в герметичному сховищі, жодне поточне середовище не підтверджується в середньому 100 років без будь-якого обслуговування.

Архівний папір

Старіші папери виготовлялися з таких матеріалів, як білизна та конопля, і так природно лужні. або без кислоти, тому триває сотні років. Папір 20 століття і більшість сучасних паперів зазвичай виготовляються з деревної маси, яка часто є кислою і не зберігається тривалий час.

Архівні фарби

Ці постійні нев’янучі чорнила стійкі до світла, тепла та води та не містять домішок, які можуть впливати на постійність паперу чи фотоматеріалів. Чорні актинічні чорнила є хімічно стійкими і мають неорганічний пігмент, який не має тенденції до поглинання домішок, як можуть використовувати інші чорнильні пігменти.

Надмірне зберігання

Колись сказав Торвальдс

Тільки сутенери використовують резервну копію стрічки: _real_ чоловіки просто завантажують свої важливі речі на ftp, і нехай відображає її решта світу

Що говорить про те, що ви не повинні покладатися на одну копію на одному носії.

Не магнітні носії?

http://www.zdnet.com/blog/perlow/the-bell-tolls-for-your-magnetic-media/9364?tag=content;siu-container

  • Типовий приклад безповоротної деградації магнітних середовищ.
  • Проблеми апаратного та програмного забезпечення (та форматів даних)

Не спеціалізовані системи

У 2002 році були великі побоювання, що диски стануть нечитабельними, оскільки комп'ютери, здатні читати формат, стали рідкісними, а накопичувачі, здатні отримати доступ до дисків ще рідше. Окрім труднощів емуляції оригінального коду, головна проблема полягала в тому, що нерухомі зображення зберігалися на лазерному диску як однокадрове аналогове відео,

http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation

Довготривале особисте зберігання

http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376

  • і носій інформації, і формат може стати нечитабельним.
  • друкуйте на безкислотному папері з пігментними чорнилами і зберігайте в прохолодному, сухому і темному місці.
  • Перша проблема - це підбір форматів даних для максимальної довговічності.
  • Уникайте використання фірмових форматів
  • USCSF переносить усі свої оригінальні стрічки - багато в застарілих форматах, таких як BetaSP і VHS - у формат руху 75MbitJPEG2000

1
1) Чи можете ви надати детальну інформацію про це? Чи нормальні паперові копії прослужать не так довго? (Фотографії зі сто років тому здаються нормальними, AFAIK). 2) Якщо жоден поточний носій даних не триватиме так довго, я пропоную використовувати шафи-рішення, можливо. Прикро, що десятиліттями відтепер ми не зможемо переглядати старі скриньки і сподіваємось, що ми зможемо переглянути будь-які наші старі, забуті фотографії тощо
user606723

@ user606723: див. оновлену відповідь
RedGrittyBrick

Я подумав, що лазерний друк на безкислотному папері буде хорошим способом зберігання даних (кілька мегабайт на сторінку), які мають високу ймовірність читати через 100-200 років. Програмне забезпечення для його читання було б відносно простим, і можна припустити, що сканери завжди будуть доступні, тому формат (доки не занадто складний) ніколи насправді не «вийде» за межі можливості компетентного аматора відновитись.
Даніель Р Хікс

64

Коротка відповідь

Неможливо гарантувати тривалий термін через ентропію (її також називають смертю!). Цифрові дані розпадаються і гинуть, як і будь-яка інша річ у Всесвіті. Але це можна сповільнити.

Наразі не існує надійного і науково перевіреного способу гарантувати 30+ років архіву холодних даних. Деякі проекти мають на меті це зробити, як проект Rosetta Disks з музею Long Now , хоча вони все ще дуже затратні та мають низьку щільність даних (близько 50 Мб).

Тим часом ви можете використовувати науково перевірені стійкі оптичні носії для зберігання в холоді, як Blu-ray диски типу HTL типу Panasonic, або архіви DVD + R, як Verbatim Gold Archival, і зберігати їх у герметичних коробках у м'якому місці (уникайте висока температура) і поза світлом.

Також будуть зайвими : Зробіть кілька копій ваших даних (по крайней мере , 4), і обчислити хеші регулярно перевіряти , що все в порядку, і кожні кілька років , ви повинні переписати дані на нових дисках. Також використовуйте безліч кодів для виправлення помилок , вони дозволять відремонтувати ваші пошкоджені дані!

Довга відповідь

Чому дані пошкоджуються з часом? Відповідь полягає в одному слові: ентропія . Це одна з первинних і неминучих сил Всесвіту, завдяки чому системи стають все менше впорядкованими в часі. Корупція даних саме така: розлад у порядку біт. Іншими словами, Всесвіт ненавидить ваші дані .

Боротьба з ентропією точно схожа на боротьбу зі смертю: ви, швидше за все, не досягнете успіху. Але, ви можете знайти способи уповільнити смерть так само, як і ви можете повільно ентропії. Ви також можете виправдати ентропію, відремонтувавши пошкодження (іншими словами: ви не можете зупинити корупцію, але ви можете відновити їх після того, як вони відбудуться, якщо вжити заходів заздалегідь!). Як і все, що стосується життя та смерті, тут немає жодної магічної кулі, ані одного рішення для всіх, а найкращі рішення вимагають від вас безпосередньо брати участь у цифровій курації ваших даних. І навіть якщо ви все зробите правильно, ви не гарантуєте збереження своїх даних, ви лише максимізуєте свої шанси.

Тепер про добру новину: зараз є досить ефективні способи збереження ваших даних, якщо ви поєднуєте носії хорошої якості зберігання та хороші стратегії архівації / зберігання : вам слід розробити на помилку .

Які хороші стратегії курації? Давайте розберемося одне: більша частина інформації, яку ви знайдете, стосуватиметься резервного копіювання, а не архівної. Проблема полягає в тому, що більшість людей передадуть свої знання про стратегії резервного копіювання в архівні архіви, і, таким чином, зараз багато чують міфи. Дійсно, зберігання даних протягом декількох років (резервне копіювання) та зберігання даних протягом найменшого можливого періоду, що охоплює принаймні десятиліття (архівні), є абсолютно різними цілями, і тому потрібні різні інструменти та стратегії.

На щастя, існує досить багато досліджень та наукових результатів, тому я раджу звертатися до тих наукових праць, а не на форумах чи журналах. Тут я підсумую деякі свої читання.

Крім того, будьте обережні до претензій і незалежних наукових досліджень, стверджуючи, що таке чи таке носій інформації є ідеальним. Згадайте відомий проект BBC Dom Tuesday: «Книга цифрового вівторка триває 15 років, а не 1000» . Завжди двічі перевіряйте дослідження справді незалежними документами, а якщо таких немає, завжди припускайте, що носій зберігання даних не є корисним для архіву.

Давайте уточнимо, що ви шукаєте (з вашого питання):

  • Довгостроковий архів : ви хочете зберігати копії ваших чутливих, невідтворюваних "особистих" даних. Архівництво принципово відрізняється від резервного копіювання , як це добре пояснено тут : резервні копії - це динамічні технічні дані, які регулярно оновлюються і тому потребують оновлення в резервні копії (тобто ОС, макет робочих папок тощо), тоді як архіви - це статичні дані, які ви, ймовірно, пишете лише один раз і час від часу читаєте просто . Архів - це тимчасові дані , як правило, особисті.

  • Холодне зберігання : ви хочете максимально уникнути збереження заархівованих даних. Це є великим обмеженням, оскільки це означає, що носій повинен використовувати компоненти та методологію написання, які залишаються стабільними протягом тривалого часу, без будь-яких маніпуляцій з вашого боку та без необхідності підключення до комп'ютера чи електропостачання.

Щоб полегшити наш аналіз, давайте спочатку вивчимо рішення для зберігання холоду, а потім довгострокові архівні стратегії.

Середовища для зберігання холоду

Вище ми визначили, яким повинен бути хороший холодильний носій: він повинен зберігати дані протягом тривалого часу без будь-яких маніпуляцій, необхідних (тому його називають "холодним": ви можете просто зберігати його в шафі, і вам не потрібно підключати його до комп’ютер для підтримки даних).

Папір може здатися найбільш стійким середовищем зберігання на землі, тому що ми часто знаходимо дуже старий рукопис з давніх часів. Однак папір страждає від основних недоліків: по-перше, щільність даних дуже низька (не можна зберігати більше ніж 100 КБ на папері, навіть із крихітними символами та комп’ютерними інструментами), і вона з часом деградує, не маючи змоги контролювати це: папір , як і жорсткі диски, страждають від мовчазної корупції. Але тоді як ви можете контролювати беззвучні пошкодження цифрових даних, ви не можете на папері. Наприклад, ви не можете гарантувати, що малюнок збереже ті самі кольори протягом лише десятиліття: кольори погіршаться, і у вас немає ніякого способу знайти, які були оригінальні кольори. Звичайно, можна вилікувати ваші фотографії, якщо ви професіонал відновлення зображень, але це вимагає великих витрат часу, тоді як за допомогою цифрових даних ви можете автоматизувати процес курірування та відновлення.

Жорсткі диски (HDD) будуть відомі до мають середню тривалість життя від 3 до 8 років: вони не просто деградують з часом, вони гарантовано в кінці кінців вмирають (тобто недоступні). Наступні криві показують цю тенденцію до вмирання всіх жорстких дисків з приголомшливою швидкістю:

Крива ванни, що показує еволюцію рівня відмов жорсткого диска, враховуючи тип помилки (також застосовно до будь-якого інженерного пристрою):

крива-hdd1

Крива, що показує рівень відмов жорсткого диска, всі типи помилок об'єднані: крива-hdd2

Джерело: Backblaze

Ви можете бачити, що існують 3 типи жорстких дисків відносно їх відмови: швидко вимираючі (наприклад: помилки виробництва, жорсткі жорсткі диски поганої якості, відмова голови тощо), постійні показники вмирання (гарне виробництво, вони вмирають за різні " нормальні "причини". Це стосується більшості жорстких дисків), і нарешті, надійні, які живуть трохи довше, ніж більшість жорстких дисків, і в кінцевому підсумку гинуть незабаром після "нормальних" (наприклад, щасливі жорсткі диски, не надто використовувані, ідеальні умови навколишнього середовища тощо.). Таким чином, вам гарантується, що ваш жорсткий диск помре.

Чому жорсткі диски гинуть так часто? Я маю на увазі, дані записуються на магнітний диск, і магнітне поле може тривати десятиліттями, перш ніж згасати. Причина їх вмирання полягає в тому, що накопичувач (магнітний диск) та обладнання для читання (електронна дошка + прядильна головка) з'єднані між собою : їх неможливо відмежувати, ви не можете просто витягнути магнітний диск і прочитати його іншою головою, тому що спочатку електронна плата (яка перетворює фізичні дані в цифрову) відрізняється майже для кожного жорсткого диска (навіть тієї ж марки та посилання, це залежить від виробника, що виробляє), а внутрішній механізм із прядильною головкою настільки складний, що сьогодні неможливо для людини ідеально розмістити прядильну головку на магнітних дисках, не вбиваючи їх.

Крім того, відомо, що жорсткі диски демагнітизуються з часом, якщо не використовуються (включаючи SSD). Таким чином, ви не можете просто зберігати дані на жорсткому диску, зберігати їх у шафі і вважати, що вони зберігатимуть дані без будь-якого електричного з'єднання: вам потрібно підключати ваш HDD до електричного джерела хоча б раз на рік або за пару років . Таким чином, жорсткі диски явно не підходять для зберігання в холоді.

Магнітні стрічки : їх часто описують як доповнення для резервного копіювання, а розширення - для архівних. Проблема з магнітними стрічками полягає в тому, що вони ДУЖЕ чутливі: магнітні оксидні частинки можуть легко руйнуватися сонцем, водою, повітрям, подряпинами, розмагнічуватися часом або будь-яким електромагнітним пристроєм або просто випадати з часом, або друкуватись . Ось чому їх зазвичай використовують лише у центрах обробки даних професіонали. Також ніколи не було доведено, що вони можуть зберігати дані більше десятиліття. Отже, чому їх часто радять робити резервні копії? Оскільки вони раніше були дешевими: у минулі часи це коштувало від 10 до 100 разів дешевше використовувати магнітні стрічки, ніж жорсткі диски, а жорсткі диски, як правило, були набагато менш стабільними, ніж зараз. Тож магнітні стрічки в першу чергу радять для резервного копіювання через економічну ефективність, а не через стійкість, яка саме нас найбільше цікавить, коли йдеться про архівування даних.

Карти CompactFlash та Secure Digital (SD), як відомо, досить міцні та надійні, здатні пережити катастрофічні умови .

Карти пам'яті у більшості камер практично незнищенні, виявив журнал Digital Camera Shopper. П’ять форматів карт пам'яті вижили, коли варили, топтали, мили та пили у каві чи кола.

Однак, як і будь-який інший магнітний носій, він покладається на електричне поле для збереження даних, і, таким чином, якщо на картці закінчиться сік, дані можуть повністю втратитись. Таким чином, не ідеально підходить для зберігання в холоді (як потрібно періодично переписувати цілі дані на карту для оновлення електричного поля), але це може бути хорошим середовищем для резервного копіювання та коротко- чи середньострокового архіву.

Оптичні носії: Оптичні носії - це клас середовищ зберігання даних, що покладаються на лазерне зчитування даних, наприклад CD, DVD або Blu-ray (BD). Це можна розглядати як еволюцію паперу, але ми записуємо дані настільки крихітними розмірами, що нам потрібен був більш точний і пружний матеріал, ніж папір, а оптичні диски - це саме це. Дві найбільші переваги оптичних носіїв полягають у тому, що носій інформації відокремлюється від обладнання для читання (тобто, якщо ваш зчитувач DVD виходить з ладу, ви завжди можете придбати інший для читання вашого диска) і що він базується на лазері, що робить його універсальним і майбутнє підтвердження (тобто, доки ви знаєте, як зробити лазер, ви завжди можете налаштувати його, щоб прочитати біти оптичного диска шляхом емуляції, як це робив CAMILEON для проекту BBC BBC у вівторок ).

Як і будь-яка технологія, нові ітерації пропонують не тільки більшу щільність (сховище), але й кращу корекцію помилок та кращу стійкість до занепаду навколишнього середовища (не завжди, але загалом вірно). Перші суперечки щодо надійності DVD були між DVD-R та DVD + R, і навіть якщо DVD-R все ще поширені в наші дні, DVD + R визнані більш надійними та точними . Зараз існують архівні DVD-диски, спеціально зроблені для зберігання в холоді, які стверджують, що вони можуть витримати мінімум ~ 20 років без будь-якого технічного обслуговування:

Verbatim Gold Archival DVD-R [...] був оцінений як найнадійніший DVD-R в ретельному довготерміновому стрес-тесті добре розглянутим німецьким журналом c't (c't 16/2008, стор. 116-123 ) [...] досягнення мінімальної міцності 18 років і середньої довговічності від 32 до 127 років (при 25 ° С, 50% вологості). Жоден інший диск не наблизився до цих значень, другий найкращий DVD-R мав мінімальну довговічність лише 5 років.

З LinuxTech.net .

Крім того, деякі компанії, що спеціалізуються на дуже довгострокових архівах DVD і широко продають їх на ринок, як-от M-Disc від Millenniata або DataTresorDisc, стверджуючи, що вони можуть зберігати дані протягом більше 1000 років і перевірені деякими (незалежними) дослідженнями (з 2009) серед менш наукових інших .

Це все здається дуже перспективним! На жаль, не вистачає незалежних наукових досліджень, щоб підтвердити ці твердження, і кілька доступних не є настільки захопленими:

Вологість (80% RH) та температура (80 ° C) прискорили старіння на декількох DVD-дисках протягом 2000 годин (приблизно 83 дні) тесту, регулярно перевіряючи читабельність даних: Вологість і температура прискорили старіння на кількох брендах DVD

Перекладено з французької установи архіву цифрових даних (Archives de France), дослідження з 2012 року.

Перший графік показує DVD з повільною еволюцією деградації. Другий DVD із кривими швидкої деградації. І третій - для спеціальних DVD-дисків, "дуже довгострокових", таких як M-Disc та DataTresorDisc. Як ми бачимо, їх продуктивність не зовсім відповідає претензій, будучи нижчими або нарівні зі стандартними, неархівними DVD-дисками!

Однак неорганічні оптичні диски, такі як M-Disc і DataTresorDisc, отримують одну перевагу: вони досить нечутливі до деградації світла:

Прискорене старіння за допомогою світла (750 Вт / м²) протягом 240 годин: Легке прискорене старіння на кількох брендах DVD

Це чудові результати, але DVD із архівним рівнем, наприклад, «Вербатим Золотой архів» також досягає такої ж продуктивності, і, крім того, світло є найбільш керованим параметром для об’єкта: досить просто помістити DVD у закриту коробку чи шафу, і таким чином усуваючи будь-який можливий вплив світла. Було б набагато корисніше придбати DVD, який дуже стійкий до температури та вологості, ніж світло.

Ця ж дослідницька група також вивчила ринок Blu-ray, щоб перевірити, чи не знайдеться якийсь бренд з хорошим середовищем для тривалого зберігання в холоді. Ось їх висновок:

Вологість і температура прискорили старіння на декількох брендах Blu-ray за тими ж параметрами, що і для DVD-дисків: темп-бд

Легке прискорене старіння на кількох брендах BluRays, однакові параметри: світлий

Перекладено з цього дослідження Archives de France, 2012.

Два зведення всіх висновків (французькою мовою) тут і тут .

Насправді, найкращий диск Blu-ray (від Panasonic) виконаний аналогічно найкращому DVD з архівним класом у тесті на вологість + температуру, хоча він практично не чутливий до світла! І цей диск Blu-ray не має навіть архівної оцінки. Крім того, диски Blu-ray використовують розширений код для виправлення помилок, ніж DVD-диски (самі використовують розширену версію відносно компакт-дисків), що додатково мінімізує ризики втрати даних. Таким чином, здається, що деякі диски BluRay можуть бути дуже хорошим вибором для зберігання в холоді.

Дійсно, деякі компанії починають працювати над архівними дисками Blu-ray з високою щільністю, наприклад, Panasonic та Sony, оголошуючи, що вони зможуть запропонувати 300 ГБ до 1 ТБ пам’яті із середньою тривалістю життя 50 років. Також великі компанії звертаються до оптичних носіїв для зберігання в холоді (адже це забирає набагато менше ресурсів, оскільки ви можете холодильно зберігати їх без будь-якого електропостачання), наприклад, Facebook, який розробив робототехнічну систему для використання Blu-ray дисків як "холодних" зберігання " для даних, до яких їх система рідко отримує доступ.

Архівна ініціатива Long Now: Є й інші цікаві ведучі, такі як проект Rosetta Disc від музею Long Now , який є проектом написання мікроскопічно розроблених сторінок "Буття" на всіх мовах на землі, на які була переведена Генеза. Це чудовий проект, який першим запропонував носій, який дозволяє зберігати 50 Мб для дійсно дуже тривалого зберігання в холоді (оскільки це записано у вуглеці) та з надійним доступом, оскільки вам потрібна лише лупа для доступу до дані (жодних дивних специфікацій формату, ні технологічних клопотів для обробки таких, як фіолетовий промінь Blu-ray, просто потрібна лупа!). Однак вони все ще виготовляються вручну і, таким чином, оцінюються в 20 доларів, що, мабуть, занадто багато для особистої архівної схеми.

Інтернет-рішення: Ще одна мережа для зберігання ваших даних у мережі. Однак рішення хмарного резервного копіювання не дуже підходять, оскільки головна проблема, ніж хмарні хостингові компанії, можуть не жити до тих пір, поки ви хочете зберегти свої дані. До інших причин можна віднести той факт, що резервне копіювання страшенно повільно (оскільки воно передається через Інтернет), і більшість постачальників вимагають, щоб файли також існували у вашій системі, щоб підтримувати їх в Інтернеті. Наприклад, і CrashPlan, і Backblaze назавжди видалять файли, які хоча б не бачилися один раз на вашому комп’ютері протягом останніх 30 днів, тому якщо ви хочете завантажити дані резервного копіювання, які ви зберігаєте лише на зовнішніх жорстких дисках, вам доведеться підключити свій USB HDD принаймні раз на місяць та синхронізуйте із хмарою, щоб скинути відлік часу. Однак, деякі хмарні сервіси пропонують зберігати ваші файли нескінченно (поки ви заплатите звичайно) без зворотного відліку, наприклад, SpiderOak. Тому будьте дуже уважні до умов та використання хмарного резервного рішення, яке ви обрали.

Альтернативою постачальникам резервних копій у хмарі є оренда власного приватного сервера в Інтернеті, і, якщо можливо, виберіть його з автоматичним дзеркальним відображенням / резервним копією ваших даних у разі відмови обладнання на їх стороні (декілька з них навіть гарантують вам дані, втрачені в їхніх контрактах , але звичайно це дорожче). Це чудове рішення, по-перше, тому що ви все ще володієте своїми даними, а по-друге, тому що вам не доведеться керувати відмовами обладнання, це відповідальність вашого хоста. І якщо одного дня ваш хост припинить роботу, ви все одно можете отримати свої дані (виберіть серйозного хоста, щоб вони не вимикалися протягом ночі, але повідомили вас заздалегідь, можливо, ви можете попросити поставити це на договір), і реконструювати в інших місцях.

Якщо ви не хочете турбуватися про налаштування власного приватного інтернет-сервера, і якщо ви можете собі це дозволити, Amazon пропонує нову послугу архівації даних під назвою Glacier . Мета полягає саме в тому, щоб довго зберігати ваші дані: таким чином, зберігання даних на льодовику коштує багато, але повернення цих даних коштує ще більше, оскільки ця послуга створена для зберігання даних поза досяжністю , не зберігати дані, до яких ви хочете часто отримувати доступ. Це означає, що ця послуга котирує ціни на запис даних, а також на їх читання. Ця послуга має величезну вартість, але це може бути хорошою пропозицією для найбільш вагомих даних (тобто: якщо у вас є кілька текстових файлів або зображень, ДУЖЕ чутливих, оскільки такі дані зазвичай мають невеликий розмір, це не обійдеться вам дуже дорого для зберігання в льодовику).

Недоліки холодного зберігання : Однак у будь-якому середовищі зберігання холодів є великий недолік: немає перевірки цілісності, оскільки холодні носії зберігання не можуть автоматично перевіряти цілісність даних (вони можуть просто реалізувати схеми виправлення помилок, щоб "залікувати" трохи збиток після пошкодження стався, але його не можна запобігти чи автоматично керувати!), оскільки, навпаки, на комп’ютері, немає жодного процесорного пристрою для обчислення / журналізації / перевірки та виправлення файлової системи. Тоді як за допомогою комп'ютера та декількох одиниць зберігання даних, ви можете автоматично перевірити цілісність своїх архівів і автоматично відобразити дзеркало на інший при необхідності, якщо в архіві даних сталася якась пошкодження (якщо у вас є кілька копій одного архіву).

Довгостроковий архів

Навіть з найкращими доступними в даний час технологіями, цифрові дані можуть зберігатися в холоді протягом декількох десятиліть (приблизно 20 років). Таким чином, у перспективі ви не можете розраховувати лише на зберігання в холодному режимі: вам потрібно встановити методологію процесу архівування даних, щоб забезпечити можливість відновлення даних у майбутньому (навіть із технологічними змінами) та мінімізувати ризики. втрати ваших даних. Іншими словами, вам потрібно стати цифровим куратором ваших даних, виправляючи пошкодження, коли вони трапляються, і відтворювати нові копії, коли це потрібно.

Немає дурних правил, але ось кілька сформованих стратегій курінгу , зокрема магічний інструмент, який полегшить вашу роботу:

  • Принцип надмірності / реплікації : надлишок - єдиний інструмент, який може повернути наслідки ентропії , що є принципом, заснованим на теорії інформації. Щоб зберегти дані, потрібно дублювати ці дані. Коди помилок - це саме автоматичне застосування принципу надмірності. Однак вам також потрібно забезпечити надмірність ваших даних: декілька копій одних і тих же даних на різних дисках, кілька копій на різних носіях (так що, якщо один носій вийшов з ладу через внутрішні проблеми, мало шансів, що інші на різних носіях також вийдуть з ладу одночасно) тощо. Зокрема Ви завжди повинні мати принаймні 3 копії своїх даних, які також називаються 3-модульною надмірністю в техніці, так що якщо Ваші копії пошкоджуються, Ви можете подати голос простою більшістю голосів, щоб відновити Ваші файли з Ваших 3-х примірників. Завжди пам’ятайте поради щодо моряка щодо компаса:

Немає сенсу брати два циркуль, тому що якщо один піде не так, ви ніколи не можете знати, який з них правильний, або якщо обидва помиляються. Завжди візьміть один компас або більше трьох.

  • Помилка виправлення кодів : це магічний інструмент, який полегшить ваше життя та безпечніші дані. Корекція помилок (ECC) - це математична конструкція, яка генерує дані, які можна використовувати для відновлення ваших даних. Це більш ефективно, тому що ECC можуть відремонтувати набагато більше ваших даних, використовуючи набагато менше місця для зберігання, ніж проста реплікація (тобто, зробити кілька копій ваших файлів), і вони навіть можуть бути використані для перевірки наявності у вашому файлі будь-якого корупція та навіть знайти місце, де ці корупції. Насправді це саме застосування принципу надмірності, але розумнішим способом, ніж реплікація. Ця методика широко застосовується в будь-якій комунікації далекого діапазону в наші дні, наприклад, 4G, WiMax і навіть космічні комунікації NASA. На жаль, незважаючи на те, що ECC всюди є в телекомунікаціях, вони не в ремонті файлів, можливо, тому, що це трохи складно. Однак доступні деякі програми, наприклад, добре відомі (але вже старі) PAR2, DVD Disaster (які пропонують додати коди виправлення помилок на оптичних дисках) та pyFileFixity (які я частково розробляю для подолання обмежень та проблем PAR2). Існують також файлові системи, які необов'язково реалізують Reed-Solomon, такі як ZFS для Linux або ReFS для Windows, які технічно є узагальненням RAID5.

  • Регулярно перевіряйте цілісність своїх файлів: Зберігайте файли та періодично перевіряйте їх (тобто раз на рік, але це залежить від середовища зберігання та умов навколишнього середовища). Коли ви побачите, що ваші файли постраждали від пошкодження, настав час відновити за допомогою створених ECC, якщо ви це зробили, та / або зробити нову свіжу копію своїх даних на новому носії інформації. Перевірка даних, усунення корупції та створення нових свіжих копій - це дуже хороший цикл курації, який забезпечить безпеку ваших даних. Зокрема, перевірка дуже важлива, оскільки копії ваших файлів можуть бути тихо пошкоджені, і якщо ви потім скопіюєте підроблені копії, ви отримаєте повністю пошкоджені файли. Це ще важливіше для холодних середовищ зберігання даних, таких як оптичні диски, які CANNOT автоматично перевіряють цілісність даних (вони вже впроваджують ECC, щоб трохи зажити, але вони не можуть перевірити або створити нові свіжі копії автоматично, це ваша робота!). Для контролю за змінами файлів ви можете використовувати сценарій rfigc.pypyFileFixity або інші інструменти UNIX, такі як md5deep . Ви також можете перевірити стан здоров'я деяких середовищ зберігання даних, як-от жорсткі диски, використовуючи такі інструменти, як Sentinel на жорсткому диску або smartmontools з відкритим кодом .

  • Зберігайте свої архіви в різних місцях (принаймні одна копія поза вашим будинком!), Щоб уникнути катастрофічних подій у реальному житті, таких як повені чи пожежі. Наприклад, один оптичний диск у вашій роботі або хмарне резервне копіювання можуть бути хорошою ідеєю для усунення цієї вимоги (навіть якщо хмарні провайдери можуть бути вимкнені в будь-який момент, якщо у вас є інші копії, ви будете в безпеці , провайдери хмарних ситуацій будуть виконувати функції архіву за межами сайтів лише у випадку надзвичайних ситуацій).

  • Зберігати в конкретних контейнерах з контрольованими параметрами навколишнього середовища : для оптичних середовищ зберігати подалі від світла та у водонепроникній коробці, щоб уникнути вологи. Для жорстких дисків та sd-карт зберігайте в антимагнітних втулках, щоб уникнути залишків електроенергії, щоб підробити накопичувач. Ви також можете зберігати в герметичній та непромокальній воді сумці / коробці та зберігати в морозилці: повільні температури повільно сприймуть ентропію, і ви можете досить довго продовжити термін служби будь-якого подібного носія (просто переконайтеся, що вода перемогла не заходьте всередину, інакше ваш засіб швидко помре).

  • Використовуйте апаратуру хорошої якості та заздалегідь перевірте їх (наприклад: коли ви купуєте SD-карту, протестуйте всю карту за допомогою програмного забезпечення, такого як HDD Scan, щоб перевірити, чи все в порядку, перш ніж писати ваші дані). Це особливо важливо для оптичних накопичувачів, оскільки їх якість може кардинально змінити якість ваших згорілих дисків, як показало дослідження Archives de France (поганий записуючий пристрій DVD дасть DVD, які триватимуть набагато менше).

  • Вибирайте ретельно свої формати файлів: не всі формати файлів стійкі до корупції, деякі навіть явно слабкі. Наприклад, зображення у форматі .jpg можуть бути повністю порушені та нечитабельні, підробляючи лише один чи два байти. Те саме для архівів 7zip. Це смішно, тому будьте уважні щодо формату файлів, які ви архівуєте. Як правило, простий чіткий текст найкращий, але якщо вам потрібно стиснути, використовуйте непомітний zip та для зображень, використовуйте JPEG2 (ще не з відкритим кодом ...). Більше інформації та відгуки про цифрові куратори тут , тут і тут .

  • Зберігайте поряд зі своїми архівами даних все програмне забезпечення та технічні характеристики, необхідні для читання даних. Пам’ятайте, що технічні характеристики швидко змінюються, і, таким чином, надалі ваші дані вже не будуть читатими, навіть якщо ви можете отримати доступ до файлу. Таким чином, вам слід віддавати перевагу форматам та програмному забезпеченню з відкритим кодом та зберігати вихідний код програми вздовж своїх даних, щоб ви завжди могли адаптувати програму від вихідного коду до запуску з нової ОС або комп’ютера.

  • Безліч інших методів та підходів доступні тут , тут і в різних частинах Інтернету.

Висновок

Я раджу використовувати те, що ви можете мати, але завжди дотримуйтесь принципу надмірності (зробіть 4 копії!), І завжди регулярно перевіряйте цілісність (тому потрібно заздалегідь генерувати базу даних хешів MD5 / SHA1) та створити нові копії у випадку корупції. Якщо ви це зробите, ви можете технічно зберігати свої дані довгий час, наскільки ви хочете, яким би не був ваш носій інформації. Час між кожною перевіркою залежить від надійності ваших носіїв пам’яті: якщо це дискета, перевіряйте кожні 2 місяці, чи це HTL Blu-ray, перевіряйте кожні 2/3 роки.

Зараз в оптимальному випадку я раджу для зберігання в холодному режимі використовувати диски Blu-ray HTL або DVD- диски з архівним класом, які зберігаються у непромокальних водонепроникних коробках та зберігаються у свіжому місці. Крім того, ви можете використовувати SD-карти та постачальників хмарних технологій, таких як SpiderOak, щоб зберігати зайві копії даних або навіть жорсткі диски, якщо вони доступні вам.

Використовуйте багато кодів для виправлення помилок , вони врятують ваш день. Також ви можете зробити декілька копій цих файлів ECC (але кілька копій ваших даних важливіше, ніж декілька копій ECC, тому що файли ECC можуть самостійно відремонтувати!).

Усі ці стратегії можна реалізувати за допомогою набору інструментів, які я розробляю (відкритий код): pyFileFixity . Цей інструмент насправді був запущений цією дискусією, виявивши, що не існує вільного інструменту для повного керування коректністю файлів. Також, будь ласка, зверніться до проекту та вікі проекту, щоб отримати докладнішу інформацію про виправлення файлів та цифрову курацію.

Нарешті, я дуже сподіваюсь, що на цю проблему буде поставлено більше науково-дослідних робіт. Це головне питання для нашого нинішнього суспільства, де все більше даних оцифровується, але без жодної гарантії, що ця маса інформації збережеться більше кількох років. Це дуже гнітюче, і я дійсно думаю, що це питання слід поставити набагато більше на передній план, щоб це стало маркетинговою точкою для будівельників і компаній, щоб зробити пристрої зберігання даних, які можуть тривати для наступних поколінь.

/ EDIT: читайте нижче для практичного кураційного розпорядку .


6
Видатна відповідь! Для цього потрібно набагато більше коштів.
bwDraco

1
Ви плануєте додати БІЛЬШЕ інформації? Розгляньте публікацію як підручник. :-)
fixer1234

1
@ fixer1234 так, я планую додати більше інформації та, що ще важливіше, доречнішу та надійну інформацію. Існує багато помилок та помилково сприйнятих безпечних рішень у сфері виправлення файлів, тому можна сказати досить багато. Після публікації цього допису я знайшов стільки інформації, що оновлення явно потрібно, і я вже склав усе, що в своїх записках, разом із посиланнями. Я не впевнений, що SuperUser - найкраще місце, де можна опублікувати всі ці дані, але в мене немає свого власного блогу: - / я постараюся бути максимально стислим.
габоровий

3
DVD + Rs досить надійні, якщо у вас немає підробок. На компакт-диски впливає будь-яке світло від інфрачервоного до фіолетового (а інфрачервоне є скрізь, іноді багато), DVD + R впливають лише червоним або коротшим, вже складніше. DVD-диски також мають чутливий шар між двома шарами пластику, компакт-диски мали шар трохи нижче поверхні, що записується олівцем !! Диски BD-R - найкращі: для їх руйнування вам потрібен фіолетовий або ультрафіолетове світло, а їх поверхня - найсильніша. Я б сказав, що йти з BD-R для практичного архівування з високою ймовірністю успіху через 30 років. Але вам потрібен гравець.
FarO

1
@OlafM так, це правда, кожне нове покоління оптичних дисків приносить із собою більш надійні технології не тільки за своїм матеріалом, але і за технологічними налаштуваннями (наприклад, спосіб написання та керування ямами / канавками, код виправлення помилок тощо) .), але також слід звернути увагу на матеріал, з якого були зроблені шари, не всі оптичні диски рівні, і зазвичай (але не завжди) архівні диски виготовляються з більш стійких матеріалів.
габоровий

11

Немає простого рішення. Обслуговування архіву - це процес , а не разова робота. Усі три наявні в даний час типи архівних носіїв мають свої плюси та мінуси, однак ці аргументи стосуються всіх типів медіа:

  1. Ніхто не зберігав DVD або жорсткі диски протягом 30 або 100 років з очевидних причин. Тож немає записів і ніхто не знає, як старіють засоби масової інформації. Тести на штучне старіння не дуже доказові, і ви покладаєтесь на тестування продавця (не неупереджене).

  2. Ви повинні зберігати носій у контрольованому середовищі для найкращих результатів (постійна температура / вологість, слабке освітлення тощо). Інакше життя в ЗМІ значно скорочується.

  3. Ви повинні підтримувати апаратне та програмне забезпечення, яке читає носії (наприклад, інтерфейси SATA можуть бути недоступними через 30 років з цього часу).

Отже, на мою думку, єдиним життєздатним рішенням для домашніх користувачів чи малого бізнесу є таке:

  1. Зберігайте кілька копій усіх даних на різних типах носія (як на жорстких дисках, так і на DVD)
  2. Зберігайте кілька копій усіх даних у кількох місцях (вдома та в сейфі Ваших банків).
  3. Копіюйте всі дані на нові носії так часто (наприклад, копіюйте на новий жорсткий диск та нові диски DVD кожні 2 роки. По мірі збільшення щільності даних вам також знадобиться менше дисків.
  4. За можливості зберігайте паперові копії всіх важливих даних (наприклад, друкуйте ці щорічні загальні книги для вашого бізнесу, друкуйте найцінніші сімейні фотографії тощо)

1
Цікаво, чи існує RAID для DVD-дисків .... тобто, якщо ви зберігаєте DVD-диски протягом двох років, ви можете бути впевнені, що 80% з них буде помилкою, тож у вас можуть бути два диски паритетності. Гмммм. usenet використовує файли парності, я думаю. Можливо, варто використовувати щось подібне для архівів DVD / CD / BD.
користувач606723

1
@ user606723: Це дуже гарна ідея! Я пропоную використовувати щось на зразок багатотомного архіву RAR (якщо оригінальні файли дійсно великі) з файлами парності PAR2 ...
haimg

4
Сумісність інтерфейсів була б головною проблемою; пройшло майже 30 років з моменту представлення IBM XT, але скільки комп'ютерів сьогодні може будь-яким чином взаємодіяти з жорстким диском, що передує ATA? Скільки вбудованих сьогодні комп’ютерів можуть взаємодіяти з жорстким диском PATA без додаткового обладнання (картки контролера або USB-адаптера)?
CVn

1
@ user606723 Те, що ви називаєте "RAID для DVD-дисків", насправді існує і вже реалізоване у вигляді "кодів виправлення помилок", зокрема за допомогою CIRC (Поперехрест кодування Рід-Соломон). Ось чому крихітні подряпини або пил не завадять вам прочитати дані, оскільки вони вже автоматично виправляються. Однак ви не можете вказати потрібний рівень надмірності, тому якщо ви хочете більш еластичний DVD, ви повинні використовувати стороннє програмне забезпечення, таке як DVDisaster , PAR2 або pyFileFixity .
габоровий

11

Швидке спостереження за моєю попередньою відповіддю вище , це буде зроблено більш стисло та розширено додатковою (але не первинною важливістю) інформацією та посиланнями, які я не можу додати у першій відповіді через обмеження довжиною 30К.

Оскільки довготерміновий архівний процес - процес курації, ось деякі інші речі, на які, можливо, ви хочете звернути свою увагу, щоб зробити ваш процес більш ефективним і забирає менше часу (та ресурсів):

  • Дедуплікація : оскільки єдиний спосіб забезпечити довгостроковий архів - це навмисне розроблене надмірність, ви хочете уникати непотрібних зайвих даних (наприклад, копій файлів, які ви отримали зі свого ключа USB на архівний жорсткий диск, але копія вже є з вашого основного комп’ютера!). Небажані зайві дані, які зазвичай називають дублікатами, є поганими, як у вартості зберігання (вони займають більше ресурсу зберігання, але вам буде важко їх знайти, коли потрібно), для вашого процесу (що робити, якщо у вас є різні версії одного файлу? Як ви можете дізнатись, яка копія є правильною?) Та за ваш час (вона відображатиметься за часом передачі, коли ви синхронізуєте резервну копію для всіх своїх архівів). Ось чому професійні архівні служби зазвичай пропонують автоматичну дедуплікацію: файли, які точно подібні, отримають однаковий inode, і вони не займуть додаткового місця. Ось, що робить, наприклад, SpiderOak. Є автоматизовані інструменти, якими ви можете скористатися, і файлові системи ZFS (Linux) або ReFS (Windows) можуть зробити це автоматично для вас.

  • Пріоритетність / категоризація : як бачите, тривалий процес архівування - це трудомісткий процес, який потрібно регулярно проводити (перевіряти обгрунтованість, синхронізувати архіви на носіях, робити нові архіви на нових носіях, щоб замінити вмираючі, відремонтувати файли, використовуючи коди виправлення помилок тощо). Щоб мінімізувати час, який це вам коштує, спробуйте визначити різні схеми захисту залежно від пріоритету ваших даних на основі категорій. Ідея полягає в тому, що при переміщенні даних комп'ютера на один із зовнішніх жорстких дисків, які ви використовуєте для довгострокового архівування, ви розміщуєте їх безпосередньо в одній папці, визначаючи пріоритет резервного копіювання: "неважливий", "особистий", "важливий", "критичний" ". Тоді ви можете визначити різні стратегії резервного копіювання для кожної папки: резервуйте повний захист (наприклад, резервне копіювання на 3 жорстких дисках + хмара + виправлення помилок + коди BluRays) лише для найважливіших даних, які ви хочете зберегти все життя (критична папка) , потім середній захист "важливих" даних (наприклад, резервна копія на 3 жорстких дисках + хмара), а потім "особисті" просто копіюються на щонайменше два зовнішні жорсткі диски, і "неважливо" не отримує копії (а може бути, на одному жорсткому диску) диск, якщо синхронізація не надто довга ...). Зазвичай ви побачите, що " - це все, що ви завантажуєте з Інтернету або різних файлів та медіа-файлів, які вам дуже не цікаві (як програмне забезпечення та ігри та фільми). Суть полягає в тому, що:чим більше файлів ви хочете тривалий час архівувати, тим складніше (і забирає багато часу) , тому намагайтеся звести до мінімуму файли, які отримують цей спеціальний режим.

  • Метадані є критичним місцем: навіть при хороших стратегіях курації зазвичай є одне, що не захищене: метадані. Метадані включають інформацію про ваші файли, наприклад: дерево каталогів (так, це лише кілька байтів, якщо ви втратите це, ви отримаєте ваші файли в цілому безлад!), Ім'я та розширення файлу, часова мітка (це Це може бути важливо для вас) і т. д. Це може не здатися великою справою, але уявіть собі наступне: що робити, якщо завтра всі ваші файли (включаючи файли, що постачаються з програмним забезпеченням та ін.) будуть поміщені все в одну плоску папку, без їх імені файлу ні розширення. Чи зможете ви відновити потрібні файли з мільярдів файлів на вашому комп’ютері шляхом ручного огляду? Не думайте, що це незвичний сценарій, це може статися так просто, як якщо б ви отримали напругу живлення або збій посеред копії: написаний розділ може бути повністю знищений (сумнозвісний RAW). Щоб вирішити цю проблему, вам слід підготуватися та підготувати свої дані до відновлення даних: щоб забезпечити збереження метаданих, ви можете агломерувати файли з їх метаданими, використовуючинетверді архіви, такі як ZIP DEFLATE або DAR (але не tar). Деякі файлові системи пропонують автоматизоване резервування метаданих, наприклад, DVDisaster (для оптичних дисків) та ZFS / ReFS (для жорстких дисків). Потім у випадку збою метаданих ви можете спробувати відновити свої розділи за допомогою TestDisk або GetDataBack (дозволити часткове відновлення дерева каталогів) або ISOBuster (для оптичних дисків), щоб відновити дерево каталогів та інші метадані. Якщо все це не вдасться, ви можете повернутися до файлового створення за допомогою PhotoRec: це вилучить усі розпізнані файли, але за умови повного розладу і без імені файлу, ні часової позначки, будуть відновлені лише самі дані. Якщо ви скомпоновані важливі файли, ви зможете відновити метадані всередині zip (навіть якщо сам zip більше не містить метаданих, принаймні всередині файлів все ще будуть мати правильні метадані). Однак, вам доведеться вручну перевіряти всі файли файлових файлів один за одним вручну, що займає багато часу. Щоб захистити від цієї можливості, ви можете заздалегідь створити файл контрольної суми цілісності за допомогою pyFileFixity або PAR2, а потім використати цей файл контрольної суми цілісності після файлового сканування для автоматичного розпізнавання та перейменування файлів залежно від їх вмісту (це єдиний спосіб автоматизації файлового сканування мета- відновлення даних, оскільки файловий процес може технічно відновлювати лише вміст, а не метадані).

  • Перевірте свої формати файлів та стратегії курації для себе : замість довіри слів статей про те, який тип формату кращий за інший, ви можете спробувати самостійно за допомогою pyFileFixity filetamper.py або просто власноруч, замінивши декілька шістнадцяткових символів у деяких Файли: ви побачите, що більшість форматів файлів можуть розбиватися на найменш, ніж 3 різні байти. Тож вам слід ретельно вибирати формати файлів: надайте перевагу простим текстовим файлам для приміток, а також використовуйте стійкі формати файлів для медіа (вони все ще працюють над такими, як MPEG-4 змінний код виправлення помилок, ffmpeg реалізує його, ref буде додано ) або створити власні коди для виправлення помилок.

  • Читайте статистичні дослідження, не вірте твердженням : Як я вже говорив у попередній відповіді, весь час висловлюються екстравагантні твердження про довговічність носіїв інформації без будь-якого наукового факту, і ви повинні особливо насторожено ставитися до цього. Дійсно, у законі немає нічого, що не заважало б виробнику похвалитися фальшивими та неперевіреними претензіями на довголіття. Віддайте перевагу посиланням на статистичні дослідження, такі як щорічний звіт BackBlaze про рівень відмов на жорстких дисках .

  • Візьміть довгого гарантованого носія Гарантія не може повернути ваші дані, але вона розповість вам про те, як виробник оцінює рівень відмов свого товару (адже в іншому випадку це буде коштувати занадто дорого, якщо ставка занадто висока протягом гарантійного періоду).


Оновлення схеми, яку я використовую: я застосовую описану вище стратегію пріоритезації, і я додав до своєї схеми хмарне резервне копіювання SpiderOak, оскільки у неї є план з нескінченним сховищем і він повністю зашифрований, тому я зберігаю єдину власність на свої дані. Я НЕ використовую як єдине резервне середовище для будь-яких своїх даних, це лише додатковий рівень.

Отже ось моя поточна схема:

  • 3 копії жорстких дисків регулярно перевіряються та синхронізуються та зберігаються в двох різних місцях і 1, який завжди є на мені (я використовую його для зберігання сміття та швидких резервних копій).
  • SpiderOak з нескінченним планом зберігання
  • Диски BluRay для дійсно розумних даних, але не надто великі (я обмежую 50 Гб даних, які я можу зберігати на цих дисках)
  • pyFileFixity та DVDisaster для папок, які я дуже хочу забезпечити збереження в довгостроковій перспективі.

У мене щоденний розпорядок такий: у мене завжди є один 2.5 портативний USB-жорсткий диск, який я можу використовувати для зберігання неважливих речей (переміщення файлів з комп'ютера на жорсткий диск) або для резервного копіювання важливих речей (копіювання файлів на жорсткий диск, але зберігати копію на моєму комп’ютер). Що стосується дійсно критичних речей, я додатково активую резервну копію в Інтернеті на SpiderOak (у мене на папці на папці з критичними матеріалами, тому мені просто потрібно перемістити туди критичні файли, і він автоматично синхронізується SpiderOak). Для дійсно важливих файлів я також обчислюю файл виправлення помилок за допомогою pyFileFixity.

Отже, підсумовуючи, для критичних речей я зберігаю їх на: портативному жорсткому диску, хмарі SpiderOak та моєму комп’ютері, тому у мене є 3 копії в будь-який час із просто двома швидкими діями (скопіюйте на портативний жорсткий диск та перейдіть до папки SpiderOak). Якщо одна копія буде пошкоджена, я можу зробити більшість голосів, щоб виправити їх за допомогою pyFileFixity. Це дуже низька вартість (як за ціною, так і за часом), але дуже ефективна і реалізує всі основні принципи цифрової курації (потрійне надмірність, різні копії в різних місцях, різні носії, перевірка цілісності та ecc від SpiderOak).

Потім кожні 3 - 6 місяців я синхронізую свій переносний жорсткий диск на другому жорсткому диску вдома, а потім кожні 6 - 12 місяців синхронізую свій портативний жорсткий диск з моїм третім жорстким диском, який знаходиться в іншому будинку. Це забезпечує додаткову перевагу обертання (якщо за 6 місяців я зрозумів, що щось пішло не так у моєму останньому резервному копії, і я видалив критичні файли, я можу отримати їх з одного з двох домашніх жорстких дисків).

Нарешті, я написав деякі дуже критичні файли на дисках BluRay за допомогою DVDisaster (та додаткові файли ecc з pyFileFixity, але не впевнений, що це було потрібно). Я зберігаю їх у герметичній коробці в шафі. Я перевіряю їх лише кожні кілька років.

Отже, бачите, моя схема насправді не є великим тягарем: щодня потрібно копіювати файли на переносний жорсткий диск і в папку SpiderOak щодня, і я просто синхронізую кожні 6 місяців на той чи інший домашній жорсткий диск . Це може зайняти до дня, залежно від того, скільки даних потрібно синхронізувати, але це автоматизовано програмним забезпеченням, тому вам просто потрібно дозволити комп'ютеру запускати програмне забезпечення, і ви робите щось інше (я використовую нетбук на 100 доларів, який я придбав тільки для зробіть це, щоб я міг одночасно працювати на своєму головному комп’ютері, не переживаючи про збій мого комп'ютера посеред копії, яка може бути жахливою та знищити ваш жорсткий диск, про який пишеться ). Коди виправлення помилок та схеми BluRay використовуються рідко для дійсно важливих даних, тому це забирає трохи більше часу, але це рідко.

Цю схему можна вдосконалити (як завжди), наприклад, використовуючи ZFS / ReFS на жорстких дисках : це дозволило б реалізувати автоматизований захист коду виправлення помилок Reed-Solomon та перевірку цілісності (і dittoblocks !) Без будь-якої ручної взаємодії з мого боку ( всупереч pyFileFixity). Хоча ZFS не може працювати на ОС Windows (на даний момент) , існує ReFS, який дозволяє аналогічно контролювати виправлення помилок на рівні файлової системи. Крім того, може бути хорошою ідеєю використовувати ці файлові системи на зовнішніх жорстких дисках! Портативний жорсткий диск із управлінням ZFS / ReFS з автоматизованим виправленням помилок і дедуплікацією RS повинен бути приголомшливим! (а ZFS здається досить швидким, тому копія повинна бути швидкою!).

Останнє зауваження: будьте уважні до претензій щодо можливостей ECC файлових систем, таких як у цьому списку , оскільки для більшості він обмежений лише метаданими (такими як APFS ) або дзеркальним відображенням RAID 1 ( btrfs ). Наскільки мені відомо, лише ZFS і ReFS надають реальні коди виправлення помилок (а не просте дзеркальне відображення) як метаданих, так і даних, причому ZFS є найдосконалішим на даний момент (хоча все ще дещо експериментальним станом на 2018 рік), зокрема, тому що накопичувачі ReFS не можуть бути завантажуваними .


5

Я б пішов на мікрофільм. Я не знаю, чи все ще виробляється, але я був би здивований, якби не він. Негативи на основі срібла тривають сотні років, якщо їх правильно зберігати. Звичайно, це величезна інвестиція, і вона займе цілу кімнату для фотозйомки та перегляду, і це не рахуючи місця для зберігання. Тож це лише в тому випадку, якщо ви дійсно значите 100 років + без обслуговування.

Якщо ні - і, швидше за все, ви цього не зробите, якщо не хочете зробити капсулу часу - просто використовуйте резервні копії жорсткого диска та копіюйте всю інформацію на нові носії кожні 10-15 років. Дійсно, немає кращого страхування від старіння середовища, ніж копіювання всього за кожні 10 років. Краще, ніж мікроплівка, краще, ніж глиняні таблетки, краще, ніж кам’яні обеліски, закопані в пустельному піску.


4

До 5 ТБ (або більше?) Ви можете надійно зберігати до 30 років на магнітній стрічці, також магнітофоні. Цей час доведено. Записи , що записуються на блакитний промінь, також повинні безпечно зберігати ваші речі до 30 років, але об'єм є близько 100 Гб.

Якщо у вас більше грошей, ви зберігаєте їх на чорно-білій 35-мм плівці. Передбачається, що дані можуть бути відновлені (залежно від щільності) протягом наступних 700 років. ( Німецьке посилання на wikipedia )


Для запису запису на 20-50 blu-ray дисків не йдеться.
user606723

Я ніколи не чув архівних даних на 35 мм, хоча, мабуть, принцип очевидний. Яка щільність?
Shinrai

@Shinrai: Я не знаю щільності фільму, вибачте
туергеїст

Напевно, ви можете визначити щільність десь від 1 до 10 мегабіт на кадр.
Даніель Р Хікс

3
Nikon LS-9000 ED сканує плівку при 4000 dpi, що дає 21,4 Мп / кадр при 35 мм (24 х 36 мм). Якщо ви можете використовувати 1/10 частини цього для фактичного зберігання даних (зважаючи на недосконалість плівки, обмеження фокусування та роздільної здатності в оптиці з обох кінців тощо), це 2 Мб / кадр або щось на зразок 10 МБ для рулону фільму з 36 експозиціями і чисто чорний / білий. Якщо 4000 dpi сканера є обмежуючим коефіцієнтом, це 100 МБ для рулону 36 експ. Звичайно, вам все-таки доведеться якось іншим чином зберігати інформацію про те, як читати дані, адже неозброєним оком рамки, ймовірно, будуть виглядати досить рівномірно сірими.
CVn

2

Я рекомендую нікелевий диск діаметром три дюйма з інформацією, мікроскопічно просоченою на його поверхню.

http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/


3
Це має бути рівно три сантиметри? У мене під рукою нікелевий диск діаметром 75 мм…
CVn

Єдина проблема такого підходу полягає в тому, що він може зберігати лише нерухомі зображення (сканування). Але це на даний момент найкращий підхід для довготривалого зберігання (до 2000 років, тисячоліття!). Ще один недолік, який підкреслюють деякі коментарі в блозі, полягає в тому, що він може зберігати лише близько 50 Мб даних.
габоровий

1

Для такого періоду часу найкраще зберігати все, що вже є на папері (або може бути легко надруковано без втрати інформації). Пам’ятайте лише про папір та тонер, які ви використовуєте для копіювання.

Щодо інших, я не знаю про цифровий носій, який зараз використовується, який би прослужив ці періоди часу. Якщо ви витратите час (і, таким чином, гроші), щоб оновити свою колекцію, то магнітна стрічка може бути життєздатним варіантом - але навіть тоді вам знадобиться певна надмірність, оскільки ви, можливо, просто дізнаєтесь, що одна стрічка пішла погано (або це може статися так, що магнітофон просто читає стрічку під час її читання).

І навіть коли ви зможете змусити фактичні засоби масової інформації витримати тест на час, ви все ще зіткнетеся з питанням, чи зможе будь-яка програма читати медіа через 30 років, не кажучи вже про 100 років відтепер.


1
Магнітна стрічка піддається ряду режимів виходу з ладу: від "друку через" до розмагнічування з часом до окису, що просто відпадає від стрічки.
Даніель Р Хікс

1

Це правда, що загальні CD-R та DVD-R недостатньо надійні для архівування важливих даних. Але ви можете отримати DVD-диски, які не так швидко згасають:

https://www.google.com/search?q=archival+dvd-r


Дякуємо, що вказали на цей параметр - хорошу альтернативу M-дискам, який доступний майже всім, хто має DVD-рекордер.
габоровий

"Вербатимний золотоархівний DVD-R [...] був оцінений як найнадійніший DVD-R в ретельному довготерміновому стрес-тесті добре розглянутим німецьким журналом c't (c't 16/2008, стор. 116- 123) [...] досягнувши мінімальної довговічності 18 років та середньої довговічності від 32 до 127 років (при 25 ° С, 50% вологість). Жоден інший диск не наближався до цих значень, другий найкращий DVD-R мав мінімальна довговічність лише 5 років. ", linuxtech.net/tips+tricks/best_safe_long-term_data_storage.html
робочий

1

Я читав, що "M-Disc" створив DVD, який потребує спеціального запису, але він читається на загальних DVD-програвачах. Вони стверджують, що тривалість життя становить 1000 років, заявляючи, що її неможливо точно перевірити. Довгий вплив сонця, подряпин, багаторазового використання тощо та диска на 100% корисний. Мені буде цікавий будь-який відгук від тих, хто стикався з цією системою.

Ось уривок від Dell, який, можливо, встановлює привід M-Disc у своїх нових ноутбуках / ПК

M-DISC Ready передає дані лазерного травлення в неорганічний матеріал, подібний до скелі, щоб запобігти втраті даних, гарантуючи, що ваші файли є безпечними та можуть зберігатися до 1000 років, заявляє компанія.

На відміну від інших записаних DVD-дисків, які використовують органічні барвники для зберігання даних, M-диски з часом не зникають і не погіршуються.


Замість повторної публікації з додатковою інформацією ви мали б відредагувати своє початкове повідомлення.
Казарк

Чи можете ви навести цитату за посиланням чи щось таке? Крім того, ви можете використовувати її >для форматування як блокової цитати.
Казарк

1

Щоб досягти тривалого резервного копіювання, вам потрібно змішати різні технології, місцеположення та носії інформації:

  • Запис на DVD - Bluray на низькій швидкості. Тримайте їх при слабкому освітленні, низькій температурі, низькій вологості, без подряпин.
  • Зберігайте копію у підрозділах RAID 1, Raid5, Raid6 або Raid10.
  • Зберігайте ще одну копію на зовнішньому жорсткому диску
  • Зберігайте копію у хмарі (карбоніт, план аварій)
  • Зберігайте копію за технологією M-Disc (Mdiscs і Mdisc пальники) недоступні на Amazon.com за дуже вигідними цінами. Виробник заявляє, що може зберігати дані протягом 1000 років.

Я бачу, що три з ваших п’яти точок кулі - це дійсно варіанти однієї теми: накопичення магнітного жорсткого диска. Що стосується вашого останнього пункту, питання полягає не в тому, скільки часу медіа зберігатимуть дані (і принаймні виробники жорстких дисків, як правило, цитують цифри, які набагато кращі, ніж реальність), а в тому, як довго буде доступне обладнання для читання даних. або знання про те, як їх зробити, будуть доступними. Усі запропоновані методи є високотехнологічними. Припустимо, що вікінги зберігали дані на дисках blu-ray; які шанси ми мали б знати, як інтерпретувати ці дані зараз?
CVn

@ MichaelKjörling Зберігайте додатковий комп'ютер із усіма необхідними периферійними пристроями. За потреби використовуйте пам'ять ROM.
QuyNguyen2013

1

Як уже згадував хтось, є нова технологія під назвою M-Disc. Вони дуже надійні: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ Ми почали використовувати їх для закріплення зображень дисків виробничих машин. На ринку вже є Blu-Rays. Єдиним недоліком є ​​те, що вони повільніше, ніж класичні B-RD.


У мене є аналогічна потреба в ОП, і прочитавши про це, я думаю, я спробую спробувати це рішення, дякую, що вказав на цю технологію! Потрібно лише придбати програвач DVD або Blu-ray, сумісний з M-Disc, а LG вже багато виробив, тому це також досить доступно і недорого!
габоровий

1
Насправді здається, що M-Disc не настільки надійні, як прикидаються. Незалежне французьке дослідження Archives de France (офіційний архівний заклад Франції), щоб знайти найкращу підтримку архіву даних, і вони виявили, що M-Disc насправді не протистоять вологості та температурі (прискорене старіння). Я опублікую тут відповідь з більш детальною інформацією.
габоровий

0

Якщо ви хочете мати метод вирішення цієї проблеми, вам слід вивчити поле Digital Presevation.

http://en.wikipedia.org/wiki/Digital_preservation

Цифрове збереження - це спосіб збереження цифрових матеріалів в живих, щоб вони залишалися корисними внаслідок технологічного прогресу, коли оригінальні технічні та програмні характеристики застаріли (wikipedia)

Існує також довідкова модель: OAIS http://en.wikipedia.org/wiki/Open_Archival_Information_System

Існує кілька відкритих і комерційних рішень для їх задоволення. Бібліотеки та архіви використовують ці технології для збереження оцифрованих книг протягом тривалих періодів часу.


Зберігання даних протягом тривалого періоду часу не означає, що засоби масової інформації вижили так довго, як уже вказувалося в кількох високоголосних відповідях. Основною частиною цифрового збереження є міграція даних у міру старіння та застарілості.
CVn

Дякую, Майкл. Лише вказівка ​​на ОАІС як метод досягнення реальної мети.
AGM

Це хороша відповідь для стратегій цифрового курірування, але насправді не для того, який носій інформації потрібно використовувати. Модель OAIS дуже хороша і справді використовується більшості національних бібліотек та архівів у світі, але я вважаю її занадто складною, теоретичною та містить непотрібні метадані для індивідуального використання. Модель BagIt є дещо практичнішою та зручнішою , але все ще досить складною, де може бути достатньо простих інструментів, таких як PAR2 або pyFileFixity .
габоровий

0

Ваша відповідь проста:

https://wiki.openstack.org/wiki/Cinder

Openstack - це система майже «безсмертного» сховища, оскільки ви можете оновити або замінити несправні вузли новими, навіть з майбутніми, невідомими нам зараз технологіями. Ваші дані зберігають принаймні 2, до 5 місць одночасно в цій системі, тому повні нотатки пам’яті можуть виходити з ладу, і дані все ще є. Ваги до 50 PB (перевірено) - 110 PB. В основному це додає SW-шар на ваше обладнання, і це робить ваше сховище нескінченним живим. Він долає наш нинішній звуковий бар'єр Raid Sets завдяки обмеженням часу відновлення дуже великих набігів. Витрати становлять близько 50% від традиційних систем Raid Storage. Я знаю систему FUJITSU, яка характеризує це як еталонну архітектуру: CD10000


1
Тепер ви просто повинні довіритись цій компанії :-)
einpoklum - відновити Моніку

-1

Практичне довгострокове зберігання даних з використанням сучасної технології 2014 року:

... і це я роблю.

Отримайте два багатотерабайтних накопичувачі, наприклад два накопичувачі по 3 терабайти кожен. Викличте один туберкульоз-1, а другий туберкульоз-2. Завантажте все на ТБ-1. Після року резервного копіювання до ТБ-1 переформатуйте TB-2 та скопіюйте TB-1 у TB-2. Потім на наступний рік створити резервну копію всього на ТБ-2. Після цього року переформатуйте TB-1 і скопіюйте TB-2 у TB-1, тим самим запустивши дворічний цикл знову.

Переформатування відновлює магнітну силу галузевих маркерів. І копіювання відновлює магнітну силу даних.

Цей же принцип може бути застосований до резервного копіювання стрічок та резервного копіювання компакт-дисків, або більшості інших резервних копій. Але компакт-диски настільки незручні, оскільки вони можуть погіршитись менше ніж за рік, і вам потрібно стільки їх, щоб усе створити резервну копію. Отже, записувати копії всіх резервних компакт-дисків кожні 5 місяців - це занадто велика робота. Поки що я можу зберігати все своє життя на одному багато терабайтному накопичувачі.


2
CD вийде погано менш ніж за рік? Ви хочете сказати, що ви не володієте жодним компакт-диском старше 1 року? Я маю компакт-диски з даними та аудіо вже більше року, можу вас запевнити, і вони прекрасно працюють!
Дейв

1
У мене є компакт-диски з 1998 року, які ще добре працюють. Незалежно від того, хто з нас знає, що це неправда, що змушує вас повірити, що це так? Чи можете ви надати свою інформацію? Дякую.
Меттью Вільямс

Немає необхідності переписувати дані на жорсткий диск, вам потрібно лише забезпечити електроживлення для підтримки (або відновлення) електромагнітного поля. Перезапис даних для тривалого зберігання необхідний лише для карт SD / Compact та SDD.
габоровий
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.