Тут справді два питання:
- Чи буде
robots.txt
на сайті Disallow (блок) Вайбак сканування сайту.
- Чи сканує Wayback ваш сайт.
Для пункту №1:
Як уже говорили інші, правильний запис для robots.txt такий:
User-agent: ia_archiver
Disallow:
Майте на увазі, що може пройти деякий час (можливо, довгий час), щоб Wayback помітив усі зміни, внесені в robots.txt.
Для того, щоб перевірити , якщо robots.txt
на вашому сайті буде дозволяти Вайбак сканувати ваш сайт:
- Перейдіть за цією URL-адресою: https://archive.org/web/
- У полі у верхній частині сторінки введіть URL-адресу сторінки на своєму сайті та натисніть
"Browse History"
кнопку.
- Або у вікні "Зберегти сторінку зараз" (зараз внизу праворуч) і введіть URL-адресу сторінки на вашому сайті та натисніть
"Save Page"
кнопку.
У цей момент ви повинні побачити 1 з 3 речей:
- Ви побачите повідомлення про помилку, яке вказує на те, що Wayback не може отримати доступ до сторінок цього сайту через "robots.txt".
- Ви побачите "календар" історичних точок збереження для сторінки на вашому сайті. У цьому випадку ви знаєте, що Wayback НЕ заблокований від сканування вашого сайту.
- Або ви побачите повідомлення про те, що у Wayback немає архіву цієї сторінки, і пропозиція натиснути посилання, щоб додати сторінку до Wayback. І в цьому випадку ви знаєте, що Wayback НЕ заблокований від сканування вашого сайту.
Тепер для пункту №2:
Чи сканує Wayback ваш сайт?
Тільки тому, що ви дозволяєте Wayback сканувати ваш сайт, не означає, що вони (коли-небудь) скануватимуть ваш сайт.
Відповідно до FAQ FAQ (наголос додано):
Більшість наших заархівованих веб-даних надходять із наших власних сканів чи сканів Alexa Internet. Жодна організація не має "сканувати мій сайт зараз!" процес подання. Сканування Internet Archive, як правило, знаходить сайти, які добре пов’язані з іншими сайтами . Найкращий спосіб переконатись у тому, що ми знайдемо ваш веб-сайт - це переконатися, що він включений в онлайн-каталоги та що подібні / пов’язані з ним сайти посилаються на вас.
Alexa Internet використовує власні методи для виявлення сайтів для сканування. Можливо, буде корисно встановити безкоштовну панель інструментів Alexa та відвідати сайт, на який ви хочете сканувати, щоб переконатися, що вони знають про це.
Незалежно від того, хто сканує сайт, слід переконатися, що правила "robots.txt" вашого веб-сайту та вказівки щодо роботи META на сторінці не вказують сканерам уникати вашого сайту.
Оновлення: 09 травня-2017
Інші залишили коментарі / відповіді, вказуючи на те, що Archive.org більше не вшановує robots.txt. Можливо, це "незавершене виробництво", і, зрештою, це станеться, але я не бачив такої нової поведінки ще.
Випадок для цього , здається, виходить з цієї статті: Robots.txt: robots.txt : передсмертна записка по archiveteam.org
. Хоча ця сторінка мало, якщо нічого хорошого сказати про "Robots.txt", вона ніде не згадує, що Archive.org більше не буде шанувати robots.txt.
Також зверніть увагу: ця стаття розміщена на archiveteam.org
, що, безумовно, немає archive.org
, і я не впевнений, що існують (офіційні) стосунки між archive.org
та archiveteam.org
.
Насправді ця сторінка про команду Archive Team , схоже, оголошує відмінність між та (наголосом додано):archive.org
archive.org
archiveteam.org
Створений у 2009 році, команда Archive ( не плутати з командою archive.org Archive-It Team) - це шахрайський архівістський колектив, присвячений збереженню копій веб-сайтів, що швидко вмирають або видаляються заради історії та цифрової спадщини. ...
У будь-якому випадку, я вирішив спробувати це, і я виявив, що, принаймні в цей час, Archive.org ВИНАГА вшановує robots.txt:
- Я знайшов випадковий предмет на eBay: Елемент №: 131795294232
- Натисніть, щоб переглянути продані товари:
- Відкриється сторінка "Продані товари": http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Скопіюйте посилання у буфер обміну.
- Перейдіть на web.archive.org і вставте посилання з eBay.
- Ви побачите, що
archive.org
вказує на те, що "Сторінка не може відображатися через robots.txt."
Отже, в цей час я залишаюсь непереконаним, але я хотів би, щоб він був неправдивим ... було б чудово, якби це було правдою.