Отримайте список URL-адрес із сайту [закрито]


94

Я розгортаю сайт заміни для клієнта, але він не хоче, щоб усі їхні старі сторінки закінчувались у 404-х. Зберегти стару структуру URL-адреси було неможливо, оскільки це було огидно.

Тож я пишу обробник 404, який повинен шукати стару сторінку, яку вимагають, і робити постійне переадресацію на нову сторінку. Проблема в тому, що мені потрібен список усіх старих URL-адрес сторінки.

Я міг би це зробити вручну, але мені буде цікаво, чи є додатки, які б надали мені список відносних (наприклад: / page / path, а не http: /.../ page / path) URL-адрес, щойно задані домашньою сторінки. Як павук, але той, якому не байдуже вміст, крім пошуку глибших сторінок.


Відповіді:


65

Я не хотів відповідати на власне запитання, але просто думав про те, щоб запустити генератор мапи сайту. Перший, який я знайшов, http://www.xml-sitemaps.com має гарний текст. Ідеально підходить для моїх потреб.


Але є обмеження в 5000 посилань! .. :( Я шукаю будь-який безкоштовний скрипт генератора файлів для php-файлів.
Jenson M John

13
Поточний ліміт 500 - все менший…
Олі Студольме

Для мене це помилка: ::::::: Виникла помилка під час доступу до вказаної URL-адреси: 159.121.ssss. Обов’язково вкажіть правильну URL-адресу веб-сайту та подайте повторно свій запит.
JustJohn

FYI: Якщо ви використовуєте фронтальну маршрутизацію, ви не отримаєте ці маршрути за допомогою цього методу.
jasonleonhard

FYI: якщо веб-сайт використовує автентифікацію та / або авторизацію, ви також не отримаєте всі маршрути.
jasonleonhard

46

робити wget -r -l0 www.oldsite.com

Тоді я find www.oldsite.comб просто розкрив усі URL-адреси, я вважаю.

Крім того, просто обслуговуйте цю користувацьку не знайдену сторінку на кожен запит 404! Тобто, якщо хтось використав неправильне посилання, він отримає сторінку із повідомленням про те, що ця сторінка не знайдена, і зробить деякі підказки щодо вмісту сайту.


15
Зокрема, оскільки це повертає список файлів , а не URL-адрес, це справді працює лише для сайтів, що є колекціями статичних файлів HTML. Якщо на сайті є параметри запиту URL-адрес, переписані URL-адреси на стороні сервера або будь-який тип include/ require/ тощо. складання сторінок, це насправді не спрацює.
TJ Schuck

Я можу нерозуміти wget. Я думав, що «wget» - це завантаження вмісту сайту?
Космічний яструб

@Doomsy так, але коли ви завантажили весь вміст, ви точно знаєте всі URL-адреси цього вмісту, і не завантажуючи їх, неможливо дізнатись URL-адреси.
аламар

1
Розглянемо глибину за замовчуванням. gnu.org/software/wget/manual/html_node/…
PJ Brunet

1
@alamar Так, є "-r -l inf" для нескінченної рекурсії, але я рекомендую людям перевірити документацію - так багато цікавих варіантів! Варіант "-m" відобразиться, і я спробую "-R.jpg, .jpeg, .gif, .png", який, на мою думку, пропускає зображення.
PJ Brunet

24

Ось список генераторів мапи сайту (з яких, очевидно, ви можете отримати список URL-адрес із сайту): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Генератори веб-сайтів

Нижче наведено посилання на інструменти, що генерують або підтримують файли у форматі XML Sitemaps, відкритий стандарт, визначений на sitemaps.org та підтримуваний пошуковими системами, такими як Ask, Google, Microsoft Live Search і Yahoo !. Файли мапи сайту зазвичай містять набір URL-адрес на веб-сайті разом з деякими метаданими для цих URL-адрес. Наступні інструменти, як правило, генерують XML-файли Sitemap "веб-типу" та файли списку URL-адрес (деякі можуть також підтримувати інші формати).

Зверніть увагу: Google не перевіряв і не перевіряв функції чи безпеку програмного забезпечення сторонніх виробників, переліченого на цьому веб-сайті. Будь-які питання щодо програмного забезпечення направляйте до автора програмного забезпечення. Ми сподіваємося, що вам сподобаються ці інструменти!

Програми на стороні сервера

  • Enarion phpSitemapsNG (PHP)
  • Генератор Sitemap Google (Linux / Windows, 32 / 64bit, open-source)
  • Outil en PHP (французька, PHP)
  • Генератор карти Perl (Perl)
  • Генератор мапи сайту Python (Python)
  • Прості карти сайта (PHP)
  • Генератор динамічних зображень SiteMap XML (PHP) $
  • Генератор мапи сайту для OS / 2 (REXX-скрипт)
  • Генератор карти XML (PHP) $

CMS та інші плагіни:

  • ASP.NET - Sitemaps.Net
  • DotClear (іспанська)
  • DotClear (2)
  • Друпал
  • Шаблони електронної комерції (PHP) $
  • Шаблони електронної комерції (PHP або ASP) $
  • Тип життя
  • Генератор мапи сайту MediaWiki
  • mnoGoSearch
  • ОС комерція
  • phpWebSite
  • Плон
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Завантажувані інструменти

  • GSiteCrawler (Windows)
  • GWebCrawler & Sitemap Creator (Windows)
  • G-Mapper (Windows)
  • Inspyder Creator Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Генератор карти Microsys A1 (Windows) $
  • Бурхливий Google Sitemap Automator $ (OS-X)
  • Кричущий Жаба SEO Павук та генератор карти сайтів (Windows / Mac) $
  • Карта сайту Pro (Windows) $
  • Карта сайту (Windows) $
  • Генератор мапи сайту від DevIntelligence (Windows)
  • Інструменти мапи сайту Sorrowmans (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • Генератор мап WebDesignPros (додаток Java Webstart)
  • Веб-лайт (Windows / Mac) $
  • Генератор мап сайту WonderWebWare (Windows)

Інтернет-генератори / послуги

  • Генератор мапи сайту AuditMyPc.com
  • AutoMapIt
  • Автоматична карта $
  • Enarion phpSitemapsNG
  • Безкоштовний генератор сайту
  • Генератор мапи сайту Neuroticweb.com
  • Генератор мапи сайту ROR
  • Генератор мап ScriptSocket
  • Генератор мапи сайту SeoUtility (італійський)
  • Карта сайту
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • Генератор файлів XML
  • Генератор XML-сайтів

CMS з інтегрованими генераторами Sitemap

  • Бетон5

Генератори мап сайта Google News Наступні плагіни дозволяють видавцям оновлювати файли мапи сайту Google News, що є варіантом протоколу sitemaps.org, який ми описуємо в нашому довідковому центрі. Окрім звичайних властивостей файлів Sitemap, Google News Sitemap дозволяють видавцям описувати типи вмісту, який вони публікують, а також визначають рівні доступу для окремих статей. Більше інформації про Новини Google можна знайти в нашому довідковому центрі та довідкових форумах.

  • Плагін WordPress Google News

Кодові фрагменти / бібліотеки

  • ASP скрипт
  • Сценарій Emacs Lisp
  • Бібліотека Java
  • Сценарій Perl
  • Клас PHP
  • Сценарій генератора PHP

Якщо ви вважаєте, що інструмент слід додати чи видалити з законних причин, залиште коментар на довідковому форумі для веб-майстрів.


Чи є хтось, хто надає екран друку з усіх URL-адрес?
ValRob

6

Найкраще, що я знайшов - це http://www.auditmypc.com/xml-sitemap.asp, який використовує Java, і не має обмежень на сторінки, і навіть дозволяє експортувати результати як необроблений список URL-адрес.

Він також використовує сеанси, тому якщо ви використовуєте CMS, переконайтеся, що ви вийшли з системи, перш ніж виконувати сканування.


3
звучало добре, але зламано.
NoobishPro

2

Отже, в ідеальному світі у вас буде специфікація для всіх сторінок вашого сайту. Ви також мали б тестову інфраструктуру, яка могла б потрапити на всі ваші сторінки, щоб перевірити їх.

Ви, мабуть, не в ідеальному світі. Чому б цього не зробити ...?

  1. Створіть зіставлення між добре відомими старими URL-адресами та новими. Перенаправлення, коли ви бачите стару URL-адресу. Можливо, я б подумав про те, щоби "ця сторінка перенесена, її новий URL - XXX, незабаром ви перейдете".

  2. Якщо у вас немає картографічного відображення, подайте повідомлення "Вибачте - ця сторінка переміщена. Ось посилання на головну сторінку" і перенаправіть їх, якщо хочете.

  3. Запишіть усі переспрямування, особливо ті, що не мають зіставлення. З часом додайте зіставлення для важливих сторінок.



1

Напишіть павука, який читає у кожен html з диска та видає кожен атрибут "href" елемента "a" (це можна зробити за допомогою аналізатора). Майте на увазі, які посилання належать до певної сторінки (це звичайне завдання для структури даних MultiMap). Після цього ви можете створити файл зіставлення, який буде виконувати роль вхідного сигналу для обробника 404.


0

Я б розглядав будь-яку кількість онлайн-інструментів створення сайтів. Особисто я раніше користувався цим (на базі Java), але якщо ви шукаєте в Google за "будівельником мапи сайту", я впевнений, що ви знайдете безліч різних варіантів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.