Питання: Деякі сайти зроблені дуже добре, інші - ні. Чому?
Відповідь: Існує кілька причин (і рішень), щоб дзеркало вийшло з ладу. Читання файлів журналів (і цього FAQ!), Як правило, ДУЖЕ хороша ідея, щоб з'ясувати, що сталося.
Посилання на веб-сайті посилаються на зовнішні посилання, або на посилання, розташовані в інших (або верхніх) каталогах, не зафіксованих за замовчуванням - використання фільтрів, як правило, це рішення, оскільки це одна з потужних опцій у HTTrack. Див. Вищезазначені питання / відповіді. Правила веб-сайту 'robots.txt' забороняють доступ до кількох частин веб-сайту - ви можете їх відключити, але лише з великою обережністю! HTTrack фільтрується (за замовчуванням ідентифікатор користувача-агента) - ви можете змінити ідентифікацію користувача-агента браузера на анонімну (MSIE, Netscape ..) - тут ще раз обережно використовуйте цю опцію, оскільки цей захід міг бути застосований щоб уникнути деякого зловживання пропускною здатністю (див. також зловживання файлом!)
Однак є випадки, які неможливо (ще) впоратися:
Флеш-сайти - немає повної підтримки
Інтенсивні сайти Java / Javascript - можуть бути помилковими / неповними
Складний CGI із вбудованим перенаправленням та іншими хитрощами - дуже складний в поводженні, а тому може спричинити проблеми
Проблема розбору в HTML-коді (випадки, коли двигун обдурений, наприклад, помилковим коментарем (
коментар (->) виявлено. Рідкісні випадки, але можуть траплятися. Звіт про помилку тоді загалом хороший!
Примітка. Для деяких сайтів налаштування "Формувати старі запити HTTP / 1.0" може бути корисним, оскільки ця опція використовує більш основні запити (наприклад, немає запиту HEAD). Це призведе до втрати продуктивності, але збільшить сумісність із деякими веб-сайтами на базі cgi.
ПД. Є багато причин, коли веб-сайт не може бути захоплений на 100%. Я думаю, що в SuperUser ми дуже ентузіасти, але ми не маємо змоги зробити зворотний інжиніринг на веб-сайті, щоб виявити, яка система працює ззаду ( Це моя думка ).