Витяг файлів з веб-архіву (.warc)

3

У мене є ряд веб-сайтів, які я архівую, щоб зберегти там багато пов'язаних файлів, зокрема, кількість PDF-файлів.

У мене не було проблем із використанням сканера Heritrix для збору сайтів. Однак я не знайшов хорошого рішення для вилучення файлів з цих .warcфайлів.

Хтось із них має досвід роботи з цим чи має переважний спосіб вивести ці окремі файли?

website archiving webarchive

— wxs
джерело

4

Ви можете переглядати WARC за допомогою програми Webarchive Player і зберігати потрібні файли у своєму браузері. Крім того, завантажте WARC на webrecorder.io і перегляньте / завантажте там.

— Драган Еспеншиєд
джерело

1

Я пропоную спробувати warctools https://github.com/internetarchive/warctools - це python lib, який дуже простий у використанні.

— Іван Бегтін
джерело

0

Раніше я використовував 7-Zip для вилучення окремих файлів або цілих архівів із файлів формату Web Archive.

Він доступний на їхньому сайті тут .

— Мартін
джерело

Цікаво. Я на машині Linux, тому я використав збірку p7zip . Здається, він не розпізнає .warcархів, який він може розпакувати ( p7zip -d web-archive.warc). Вам вдалося витягнути окремі файли за допомогою 7-Zip?

— wxs

@walker Я справді був. Хоча архів не був розпізнаний, він відкрився із 7-Zip, а вміст був виведений і був неможливим.

— Мартін

Гм. Я потрапив на машину Windows і використовую 7-Zip 9.20. У мене є три різні .warcфайли, але жоден не може бути вилучений програмою. Не впевнений, у чому проблема.

— wxs