Я хотів би зберегти цю веб-сторінку та всі сторінки, на які вона посилається. і сподіваємось, що вони матимуть однакове зв'язок між збереженими веб-сторінками.
Чи є якісь способи замість відкриття та збереження кожної пов’язаної сторінки?
Я хотів би зберегти цю веб-сторінку та всі сторінки, на які вона посилається. і сподіваємось, що вони матимуть однакове зв'язок між збереженими веб-сторінками.
Чи є якісь способи замість відкриття та збереження кожної пов’язаної сторінки?
Відповіді:
Ви можете робити все, що завгодно, за допомогою утиліти командного рядка wget . Якщо ви надаєте їй таку -r
можливість, вона буде рекурсивно завантажувати веб-сторінки. Наприклад:
wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html
Це завантажить цю веб-сторінку та все, на що вона посилається. Ви також можете зробити це лише повторити певну кількість рівнів, для цього вам просто надається -r
число. Ось такі:
wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
Ця нитка зараз стара, але інші можуть дивитись на неї. Дякую, Вуфферс, що вказали мені в правильному напрямку, але, щоб розширити відповідь Вуфферса: Сучасна версія wget має ряд корисних варіантів для повторюваних посилань та приклеювання їх до місцевих відносних посилань, щоб ви могли переміщатися по локальній копії веб-сайту. Використовуйте параметр -r для повторної повторної роботи, варіант -k для виправлення локальних посилань, варіант -H для переходу до доменів, відмінних від початкового, варіант -D для обмеження доменів, до яких ви переходите, варіант -l для обмеження значення глибина рекурсії та опція -p, щоб переконатися, що в листах вашого обходу є все необхідне для правильного відображення. Наприклад, нижче буде завантажено сторінку та все, на що вона негайно посилається, зробивши її доступною для локального перегляду,
wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain
Використовуючи команду, подібну до наведеної вище, я зміг завантажити шматок сторінки вікі із зовнішніми посиланнями на свій локальний диск, не завантажуючи мегабайти сторонніх даних. Тепер, коли я відкриваю кореневу сторінку у своєму браузері, я можу переміщатися по дереву без підключення до Інтернету. Єдиним дратівливим фактором було те, що коренева сторінка була похована у підкаталогах, і мені довелося створити сторінку перенаправлення верхнього рівня, щоб зробити її зручною для відображення. Щоб виправити це, може знадобитися певна спроба та помилка. Прочитайте сторінку wget man та експериментуйте.
Ви можете використовувати веб-сканер на зразок httrack , який є безкоштовним.
З веб-сайту;
[httrack] дозволяє завантажувати всесвітній веб-сайт з Інтернету в локальний каталог, рекурсивно будуючи всі каталоги, отримуючи HTML, зображення та інші файли з сервера на комп'ютер. HTTrack організовує відносну оригінальну структуру посилань сайту. Просто відкрийте сторінку свого "дзеркального" веб-сайту у своєму браузері, і ви можете переглядати сайт із посилання на посилання, як ніби ви переглядали його в Інтернеті.