Як завантажити веб-сайт з archive.org Wayback Machine?

83

Я хочу отримати всі файли для певного веб-сайту на archive.org. Причини можуть включати:

оригінальний автор не архівував власний веб-сайт, і він зараз в автономному режимі, я хочу зробити з нього загальнодоступний кеш
Я оригінальний автор якогось веб-сайту і втратив деякий вміст. Я хочу його відновити
...

Як це зробити?

Беручи до уваги, що машина зворотного шляху archive.org дуже особлива: посилання на веб-сторінки вказують не на самий архів, а на веб-сторінку, яка може бути там більше не. JavaScript використовується для клієнта для оновлення посилань, але хитрість, як рекурсивний wget, не працюватиме.

archiving web

— користувач36520
джерело

14

Я зіткнувся з тією ж проблемою, і я зашифрував дорогоцінний камінь. Для установки: gem install wayback_machine_downloader. Запустіть wayback_machine_downloader з базовим URL-адресою веб-сайту, який ви хочете отримати як параметр: wayback_machine_downloader http://example.comДетальніше: github.com/hartator/wayback_machine_downloader

— Hartator

3

Покрокова допомога для користувачів Windows (win8.1 64bit для мене) нова для Ruby, ось що я зробив, щоб вона працювала: 1) я встановив rubyinstaller.org/downloads, а потім запустіть "rubyinstaller-2.2.3-x64 .exe "2) завантажив zip-файл github.com/hartator/wayback-machine-downloader/archive/… 3) розпакуйте zip на моєму комп’ютері 4) пошук у меню запуску Windows для" Пуск командного рядка з Ruby "(щоб бути продовження)

— Ерб

3

5) дотримуйтесь вказівок github.com/hartator/wayback_machine_downloader (e; .g: скопіюйте вставити цей "gem install wayback_machine_downloader" у відповідне запит. Натисніть клавішу enter, і вона встановить програму ... потім дотримуйтесь вказівок "Використання"). 6) після захоплення вашого веб-сайту ви знайдете файли на C: \ Users \ YOURusername \ веб-сайти

— Erb

63

Я спробував різні способи завантажити сайт і, нарешті, знайшов завантажувач зворотної машини - про який згадував Hartator раніше (тому всі кредити йдуть йому, будь ласка), але я просто не помітив його коментаря до цього питання. Щоб заощадити ваш час, я вирішив додати дорогоцінний камінь wayback_machine_downloader як окрему відповідь.

Сайт за адресою http://www.archiveteam.org/index.php?title=Restoring перелічує такі способи завантаження з archive.org:

Завантажувач Wayback Machine , невеликий інструмент в Ruby, щоб завантажити будь-який веб-сайт з машини Wayback. Безкоштовно та з відкритим кодом. Мій вибір!
Warrick - Основний сайт здається вниз.
Завантажувач Wayback - сервіс, який завантажить ваш сайт з Wayback Machine і навіть додасть плагін для Wordpress. Не безкоштовно.

— Comic Sans
джерело

Я також написав "зворотний завантажувач" у php, завантаження ресурсів, коригування посилань тощо: gist.github.com/divinity76/85c01de416c541578342580997fa6acf

— hanshenrik

@ComicSans, На сторінці, яку ви пов’язали, що таке захоплення для архіву ??

— Pacerier

1

У жовтні 2018 року завантажувач Wayback Machine Download все ще працює.

— Той бразильський хлопець

@Pacerier означає (набори) файлів WARC, створених командою Archive (і зазвичай подаються на зворотній автомат Internet Archive), див. Archive.org/details/archiveteam

— Немо

12

Це можна зробити за допомогою скрипта bash shell у поєднанні зwget .

Ідея полягає у використанні деяких URL-функцій автомата зворотного зв'язку:

http://web.archive.org/web/*/http://domain/*буде перераховано всі збережені сторінки з http://domain/рекурсивно. Він може бути використаний для побудови індексу сторінок для завантаження та уникнення евристики для виявлення посилань на веб-сторінках. Для кожного посилання також є дата першої та останньої версій.
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageперерахує всю версію http://domain/pageроку на рік РРРР На цій сторінці можна знайти конкретні посилання на версії (з точним часовим позначкою)
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageповерне немодифіковану сторінку http://domain/pageза вказаною часовою позначкою. Зауважте маркер id_ .

Це основи створення сценарію для завантаження всього із заданого домену.

— користувач36520
джерело

7

Ви дійсно повинні використовувати API, а не архівні сторінки.org.orghelp/ wayback_api.php Вікіпедії призначені для редакторів, а не для широкої громадськості. Тож ця сторінка орієнтована на графічний інтерфейс, який є і витісненим, і неадекватним для цього завдання.

— Немо

Напевно, буде простіше просто сказати взяти URL (наприклад http://web.archive.org/web/19981202230410/http://www.google.com/) і додати id_до кінця "номери дат". Тоді ви отримаєте щось подібне http://web.archive.org/web/19981202230410id_/http://www.google.com/.

— хайкам

1

Сценарій пітона також можна знайти тут: gist.github.com/ingamedeo/…

— Амедео Барагіола

4

Існує спеціально призначений для цього інструмент, Warrick: https://code.google.com/p/warrick/

Він заснований на протоколі Memento.

— Немо
джерело

3

Наскільки мені вдалося скористатися цим (у травні 2017 року), він просто відновлює те, що зберігається archive.is, і майже ігнорує те, що є на archive.org; Крім того, він намагається отримати документи та зображення з кешів Google / Yahoo, але повністю не вдається. Воррік клонували кілька разів на GitHub після вимкнення Google Code, можливо, є якісь кращі версії.

— Гвінет Левелін

0

Ви можете це легко зробити wget.

wget -rc --accept-regex '.*ROOT.*' START

Де ROOTє коренева URL-адреса веб-сайту та STARTпочаткова URL-адреса. Наприклад:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Зауважте, що вам слід обійти рамку для обгортання веб-архіву для отримання STARTURL-адреси. У більшості браузерів можна клацнути правою кнопкою миші сторінку та вибрати "Показати лише цей кадр".

— jcoffland
джерело