Як завантажити веб-сайт з archive.org Wayback Machine?


83

Я хочу отримати всі файли для певного веб-сайту на archive.org. Причини можуть включати:

  • оригінальний автор не архівував власний веб-сайт, і він зараз в автономному режимі, я хочу зробити з нього загальнодоступний кеш
  • Я оригінальний автор якогось веб-сайту і втратив деякий вміст. Я хочу його відновити
  • ...

Як це зробити?

Беручи до уваги, що машина зворотного шляху archive.org дуже особлива: посилання на веб-сторінки вказують не на самий архів, а на веб-сторінку, яка може бути там більше не. JavaScript використовується для клієнта для оновлення посилань, але хитрість, як рекурсивний wget, не працюватиме.


14
Я зіткнувся з тією ж проблемою, і я зашифрував дорогоцінний камінь. Для установки: gem install wayback_machine_downloader. Запустіть wayback_machine_downloader з базовим URL-адресою веб-сайту, який ви хочете отримати як параметр: wayback_machine_downloader http://example.comДетальніше: github.com/hartator/wayback_machine_downloader
Hartator

3
Покрокова допомога для користувачів Windows (win8.1 64bit для мене) нова для Ruby, ось що я зробив, щоб вона працювала: 1) я встановив rubyinstaller.org/downloads, а потім запустіть "rubyinstaller-2.2.3-x64 .exe "2) завантажив zip-файл github.com/hartator/wayback-machine-downloader/archive/… 3) розпакуйте zip на моєму комп’ютері 4) пошук у меню запуску Windows для" Пуск командного рядка з Ruby "(щоб бути продовження)
Ерб

3
5) дотримуйтесь вказівок github.com/hartator/wayback_machine_downloader (e; .g: скопіюйте вставити цей "gem install wayback_machine_downloader" у відповідне запит. Натисніть клавішу enter, і вона встановить програму ... потім дотримуйтесь вказівок "Використання"). 6) після захоплення вашого веб-сайту ви знайдете файли на C: \ Users \ YOURusername \ веб-сайти
Erb

Відповіді:


63

Я спробував різні способи завантажити сайт і, нарешті, знайшов завантажувач зворотної машини - про який згадував Hartator раніше (тому всі кредити йдуть йому, будь ласка), але я просто не помітив його коментаря до цього питання. Щоб заощадити ваш час, я вирішив додати дорогоцінний камінь wayback_machine_downloader як окрему відповідь.

Сайт за адресою http://www.archiveteam.org/index.php?title=Restoring перелічує такі способи завантаження з archive.org:

  • Завантажувач Wayback Machine , невеликий інструмент в Ruby, щоб завантажити будь-який веб-сайт з машини Wayback. Безкоштовно та з відкритим кодом. Мій вибір!
  • Warrick - Основний сайт здається вниз.
  • Завантажувач Wayback - сервіс, який завантажить ваш сайт з Wayback Machine і навіть додасть плагін для Wordpress. Не безкоштовно.

Я також написав "зворотний завантажувач" у php, завантаження ресурсів, коригування посилань тощо: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, На сторінці, яку ви пов’язали, що таке захоплення для архіву ??
Pacerier

1
У жовтні 2018 року завантажувач Wayback Machine Download все ще працює.
Той бразильський хлопець

@Pacerier означає (набори) файлів WARC, створених командою Archive (і зазвичай подаються на зворотній автомат Internet Archive), див. Archive.org/details/archiveteam
Немо

12

Це можна зробити за допомогою скрипта bash shell у поєднанні зwget .

Ідея полягає у використанні деяких URL-функцій автомата зворотного зв'язку:

  • http://web.archive.org/web/*/http://domain/*буде перераховано всі збережені сторінки з http://domain/рекурсивно. Він може бути використаний для побудови індексу сторінок для завантаження та уникнення евристики для виявлення посилань на веб-сторінках. Для кожного посилання також є дата першої та останньої версій.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageперерахує всю версію http://domain/pageроку на рік РРРР На цій сторінці можна знайти конкретні посилання на версії (з точним часовим позначкою)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageповерне немодифіковану сторінку http://domain/pageза вказаною часовою позначкою. Зауважте маркер id_ .

Це основи створення сценарію для завантаження всього із заданого домену.


7
Ви дійсно повинні використовувати API, а не архівні сторінки.org.orghelp/ wayback_api.php Вікіпедії призначені для редакторів, а не для широкої громадськості. Тож ця сторінка орієнтована на графічний інтерфейс, який є і витісненим, і неадекватним для цього завдання.
Немо

Напевно, буде простіше просто сказати взяти URL (наприклад http://web.archive.org/web/19981202230410/http://www.google.com/) і додати id_до кінця "номери дат". Тоді ви отримаєте щось подібне http://web.archive.org/web/19981202230410id_/http://www.google.com/.
хайкам

1
Сценарій пітона також можна знайти тут: gist.github.com/ingamedeo/…
Амедео Барагіола

4

Існує спеціально призначений для цього інструмент, Warrick: https://code.google.com/p/warrick/

Він заснований на протоколі Memento.


3
Наскільки мені вдалося скористатися цим (у травні 2017 року), він просто відновлює те, що зберігається archive.is, і майже ігнорує те, що є на archive.org; Крім того, він намагається отримати документи та зображення з кешів Google / Yahoo, але повністю не вдається. Воррік клонували кілька разів на GitHub після вимкнення Google Code, можливо, є якісь кращі версії.
Гвінет Левелін

0

Ви можете це легко зробити wget.

wget -rc --accept-regex '.*ROOT.*' START

Де ROOTє коренева URL-адреса веб-сайту та STARTпочаткова URL-адреса. Наприклад:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Зауважте, що вам слід обійти рамку для обгортання веб-архіву для отримання STARTURL-адреси. У більшості браузерів можна клацнути правою кнопкою миші сторінку та вибрати "Показати лише цей кадр".

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.