Неможливо скопіювати / відобразити дзеркальну сторінку веб-сайту за допомогою WinHTTrack

Я використовую Httrack для копіювання / дзеркального відображення веб-сайту і стикаюся з однією проблемою.

Я говорю про цей веб-сайт. Подумайте, я хочу охопити цю сторінку усіма внутрішніми посиланнями (ви можете побачити: проблема 6.11, проблема 6.10 з цієї сторінки). Отже, я спробував наступне:

Введіть назву та URL-адресу проекту:

знімок екрана

Параметр "Установити" може підніматися вгору і вниз

введіть тут опис зображення

І я почав дзеркально, процес закінчився, але коли я переглядаю index.html, головна сторінка відображається правильно, але подальші посилання (сторінка sab, як згадувалося раніше, проблема 6.11, 6.10 тощо) не відображаються - відображається лише канал імені файлу. ( спробуйте самі побачити, що відбувається не так)

Як виправити цю проблему?

website mirroring httrack

— APLUS
джерело

Я пропоную вам прочитати FAQ

Ось цитата з веб-сайту WinHTTrack:

Питання: Деякі сайти зроблені дуже добре, інші - ні. Чому?

Відповідь: Існує кілька причин (і рішень), щоб дзеркало вийшло з ладу. Читання файлів журналів (і цього FAQ!), Як правило, ДУЖЕ хороша ідея, щоб з'ясувати, що сталося.

Посилання на веб-сайті посилаються на зовнішні посилання, або на посилання, розташовані в інших (або верхніх) каталогах, не зафіксованих за замовчуванням - використання фільтрів, як правило, це рішення, оскільки це одна з потужних опцій у HTTrack. Див. Вищезазначені питання / відповіді. Правила веб-сайту 'robots.txt' забороняють доступ до кількох частин веб-сайту - ви можете їх відключити, але лише з великою обережністю! HTTrack фільтрується (за замовчуванням ідентифікатор користувача-агента) - ви можете змінити ідентифікацію користувача-агента браузера на анонімну (MSIE, Netscape ..) - тут ще раз обережно використовуйте цю опцію, оскільки цей захід міг бути застосований щоб уникнути деякого зловживання пропускною здатністю (див. також зловживання файлом!)

Однак є випадки, які неможливо (ще) впоратися:

Флеш-сайти - немає повної підтримки

Інтенсивні сайти Java / Javascript - можуть бути помилковими / неповними

Складний CGI із вбудованим перенаправленням та іншими хитрощами - дуже складний в поводженні, а тому може спричинити проблеми

Проблема розбору в HTML-коді (випадки, коли двигун обдурений, наприклад, помилковим коментарем (
коментар (->) виявлено. Рідкісні випадки, але можуть траплятися. Звіт про помилку тоді загалом хороший!

Примітка. Для деяких сайтів налаштування "Формувати старі запити HTTP / 1.0" може бути корисним, оскільки ця опція використовує більш основні запити (наприклад, немає запиту HEAD). Це призведе до втрати продуктивності, але збільшить сумісність із деякими веб-сайтами на базі cgi.

ПД. Є багато причин, коли веб-сайт не може бути захоплений на 100%. Я думаю, що в SuperUser ми дуже ентузіасти, але ми не маємо змоги зробити зворотний інжиніринг на веб-сайті, щоб виявити, яка система працює ззаду ( Це моя думка ).

— Франциско Тапіа
джерело