Архівування декількох сотень веб-сторінок на документ або pdf [закрито]


1

Я працюю в університетській бібліотеці і маю архівувати наш університетський бюлетень (правила, положення, відділи, курси тощо). Я робив найсвіжіший з них, але зараз доводиться робити це щороку, починаючи з 1997 року. У 2014-15 роках було 3100 сторінок і пішло близько 1,5 тижнів, щоб нарешті зібратися. Я робив кожну сторінку по одній, копіював у Word, трохи відформатував, а потім зберігав усі документи слова в PDF. Мені потрібно мати документи для пошуку та підтримувати певний тип Змісту / Закладки, щоб можна було легко переміщуватися. Я знайшов спосіб завантажити HTML для кожної сторінки відділу, перехопивши посилання через елемент перевірки в браузері, а потім за допомогою HTTrack завантажити їх.

Але зараз я стикаюся з тим же самим питанням, що йти на кожен сайт та копіювати вставляти текст. Немає хорошого способу це зробити. У мене є Acrobat X, але він не підтримує жодної із закладок / заголовків і досить важко підтримувати подібний вигляд зі сторінки на сторінку. Я також зберігаю неприємні проблеми з непотрібними "чистими" документами, які я можу перетворити на PDF / A. Напевно, я просто дивлюсь, щоб хтось зіткнувся з чимось подібним чи міг би придумати якесь рішення, яке я міг би зібрати. Я можу завантажити файл 2014-15, якщо це допоможе. Я навіть не знаю, чи це найкраща біржа для використання. Будь-яка допомога буде дуже вдячна!


Відповіді:


1

Ви можете використовувати функцію WebCapture Acrobat Pro з відповідними налаштуваннями (перебування на одному сервері, перебування у відділенні тощо).


Це щось працює, але сайт, мабуть, занадто великий, щоб захопити, і немає способу зробити це в декількох наборах. Я отримую помилку "Без пам'яті" приблизно через 300 сторінок. Способом налаштування сайту ви не можете просто вибрати розділ та захопити його. Це все XML і, схоже, не має простої (дерево?) Структури. Якщо я можу захопити всі елементи перевірки посилань, я можу завантажити всі htmls. Якщо я поміщаю локальні посилання на них в один html, чи можу я потім запустити Acrobat, щоб захопити весь локальний "сайт"?
crabab11
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.