Як архівувати весь веб-сайт?


15

Щоб зберегти одну сторінку через Wayback Machine, я можу перейти до:

Як я можу архівувати веб-сайт рекурсивно за допомогою Wayback Machine ?


Є такий проект, як wayback-machine-downloader, але я шукаю функцію, яка дозволяє мені завантажувати веб-сайт рекурсивно.

Відповіді:


12

Оскільки Wayback Machine не забезпечує такої функції, я знайшов певне рішення.

  1. По-перше, віддзеркаліть веб-сайт, використовуючи wget, наприклад,

    wget -m https://example.com/
    
  2. Потім використовуйте curlдля архівування всіх завантажених сторінок.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    Примітка: Ви можете змінити , .htmlщоб .php, чи включати в себе певний тип файлів.


Якщо на веб-сайті не використовуються розширення (наприклад, html або php - як SE, це налаштування), як ви адаптуєте свою команду?
дб

2
Ви можете змінити , -name "*.html"щоб -type fвключити всі файли.
kenorb

Як це працює з параметрами запиту?
Міфічний

6

Якщо ви хочете архівувати невеликий веб-сайт, команда Archive підтримує ArchiveBot , бот IRC, де ви можете подати запит на сканування веб-сайтів. Потім команда архіву надсилає обскановані сторінки на машину зворотного зв'язку Інтернет-архіву.


Це неймовірно корисно.
Хлопець

1

Машина Wayback не пропонує способу подати весь сайт, лише одну сторінку, як ви вже знайшли. Це стосується декількох пунктів поширених запитань про Wayback Machine :

Чи можу я додати сторінки до Wayback Machine?

На https://archive.org/web ви можете скористатися функцією "Зберегти сторінку зараз", щоб одночасно зберегти певну сторінку. Наразі ця URL-адреса не додається до будь-яких майбутніх сканування, а також не зберігається більше ніж на одній сторінці. Це не зберігає кілька сторінок, каталогів або цілих сайтів .

і

Як я можу включити свій сайт в автомат Wayback?

Більшість наших заархівованих веб-даних надходять із наших власних сканів чи сканів Alexa Internet. Жодна організація не має "сканувати мій сайт зараз!" процес подання . Сканування Internet Archive, як правило, знаходить сайти, які добре пов’язані з іншими сайтами. Найкращий спосіб переконатись у тому, що ми знайдемо ваш веб-сайт - це переконатися, що він включений в онлайн-каталоги та що подібні / пов’язані з ним сайти посилаються на вас.


1
Це не відповідь на запитання. Тільки тому, що немає офіційного способу зробити це, завдання неможливо виконати. Насправді, вибирати сценарій, який додає посилання, має бути досить легко.
дб

@db, здається, відповідь kenorb - це те, про що ви просили. Між іншим, ця відповідь мені зараз корисніша, тому що я просто хотів, щоб The WaybackMachine зайняв для мене одну сторінку.
cp.engr

1

Ця стаття на archive.org також пропонує платну послугу, яка виконуватиме сканування за вас так часто, як вам захочеться:

  1. Підпишіться на рахунок Archive-It

Архів - це послуга передплати, що надається Інтернет-архівом, яка дозволяє запускати власні проекти сканування без будь-якої технічної експертизи. Скажіть нам, що сканувати та як часто його сканувати, і ми виконуємо сканування та розміщуємо результати в машині Wayback.

Напевно, це не те, що ви хочете, але для деяких підприємств ця послуга може бути корисною. Я припускаю, що це допомагає фінансувати archive.org, який інакше є безкоштовним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.