Користувачі комп'ютера webarchive

6

Проблеми з використанням wget або httrack для дзеркального архіву веб-сайту

Я намагаюся використовувати wget для створення локального дзеркала веб-сайту. Але я знаходжу, що я не отримую всіх посилальних сторінок. Ось веб-сайт http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ Я не хочу, щоб усі сторінки починалися web.archive.org, але я хочу, щоб усі сторінки починалися http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/. Коли я використовую wget -r, у своїй файловій структурі я знаходжу web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html, …

12 linux wget httrack webarchive

3

Витяг файлів з веб-архіву (.warc)

У мене є ряд веб-сайтів, які я архівую, щоб зберегти там багато пов'язаних файлів, зокрема, кількість PDF-файлів. У мене не було проблем із використанням сканера Heritrix для збору сайтів. Однак я не знайшов хорошого рішення для вилучення файлів з цих .warcфайлів. Хтось із них має досвід роботи з цим чи …

3 website archiving webarchive

1

Кращий підхід до періодичного архівування веб-сайту

Я працюю над підходом до того, щоб періодично архівувати наш веб-сайт (динамічно генерується) (скажімо, щомісяця) і тримати його в оновленні, щоб я міг повернутися назад і перетягнути сторінку на певний період. Мій початковий підхід полягає в тому, щоб сканувати сайт рекурсивно і зафіксувати його у сховищі субверсії, щоб я міг …

apache-http-server svn archiving webarchive

Запитання з тегом «webarchive»