Витяг файлів з веб-архіву (.warc)


3

У мене є ряд веб-сайтів, які я архівую, щоб зберегти там багато пов'язаних файлів, зокрема, кількість PDF-файлів.

У мене не було проблем із використанням сканера Heritrix для збору сайтів. Однак я не знайшов хорошого рішення для вилучення файлів з цих .warcфайлів.

Хтось із них має досвід роботи з цим чи має переважний спосіб вивести ці окремі файли?

Відповіді:




0

Раніше я використовував 7-Zip для вилучення окремих файлів або цілих архівів із файлів формату Web Archive.

Він доступний на їхньому сайті тут .


Цікаво. Я на машині Linux, тому я використав збірку p7zip . Здається, він не розпізнає .warcархів, який він може розпакувати ( p7zip -d web-archive.warc). Вам вдалося витягнути окремі файли за допомогою 7-Zip?
wxs

@walker Я справді був. Хоча архів не був розпізнаний, він відкрився із 7-Zip, а вміст був виведений і був неможливим.
Мартін

Гм. Я потрапив на машину Windows і використовую 7-Zip 9.20. У мене є три різні .warcфайли, але жоден не може бути вилучений програмою. Не впевнений, у чому проблема.
wxs
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.