Запитання з тегом «webarchive»

6
Проблеми з використанням wget або httrack для дзеркального архіву веб-сайту
Я намагаюся використовувати wget для створення локального дзеркала веб-сайту. Але я знаходжу, що я не отримую всіх посилальних сторінок. Ось веб-сайт http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ Я не хочу, щоб усі сторінки починалися web.archive.org, але я хочу, щоб усі сторінки починалися http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/. Коли я використовую wget -r, у своїй файловій структурі я знаходжу web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html, …

3
Витяг файлів з веб-архіву (.warc)
У мене є ряд веб-сайтів, які я архівую, щоб зберегти там багато пов'язаних файлів, зокрема, кількість PDF-файлів. У мене не було проблем із використанням сканера Heritrix для збору сайтів. Однак я не знайшов хорошого рішення для вилучення файлів з цих .warcфайлів. Хтось із них має досвід роботи з цим чи …

1
Кращий підхід до періодичного архівування веб-сайту
Я працюю над підходом до того, щоб періодично архівувати наш веб-сайт (динамічно генерується) (скажімо, щомісяця) і тримати його в оновленні, щоб я міг повернутися назад і перетягнути сторінку на певний період. Мій початковий підхід полягає в тому, щоб сканувати сайт рекурсивно і зафіксувати його у сховищі субверсії, щоб я міг …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.