Як правильно (не) дозволити бота archive.org? Чи змінилися речі, якщо так, коли?

10

У мене є веб-сайт, який я, як правило, не хочу індексувати пошуковими системами, але хочу зберегти його на вічність на archive.org. Тож моє robots.txtпочинається з цього:

User-agent: *
Disallow: /

Сьогодні, як повідомляє archive.org, я повинен додати наступне у своєму, robots.txtщоб дозволити їх ботам:

User-agent: ia_archiver
Disallow:

Але я вже зробив те, що вони вказали пару років тому, принаймні, я додав наступне:

User-agent: archive.org_bot
Disallow:

Потім є ще одне джерело , яке стверджує, що ви повинні додати два вище Disallows, плюс ще одне:

User-agent: ia_archiver-web.archive.org 
Disallow:

Зауважте, що вам потрібно поставити, Disallow: /якщо ви не хочете, щоб бот архівував ваш сайт.

Чи відбулися зміни з ботом IA? Якщо так, коли?

Який рекомендований спосіб? Чи варто я зараз дозволити всім трьом і сподіваюся, що в майбутньому IA знову не змінить їх ім’я бота?

web-crawlers robots.txt internet-archive

— кВт
джерело

Я знав лише про ia_archiver. Інші для мене сюрприз. У вас є посилання на це? Причина, яку я прошу, полягає в тому, що archive.org все одно відвідує мій сайт, і мені довелося заблокувати їх за IP-адресою. Ви також згадати , що ви чи хочете дозволити archive.org але говорити про блокування його. Я просто хочу бути більш зрозумілим щодо цього, і посилання можуть допомогти нам усім. Спасибі заздалегідь!

— closetnoc

Оновлено питання. Сподіваюся, зараз зрозуміліше. Крихітна версія: я не хочу ботів пошукових систем на цьому сайті, я хочу ботів archive.org. Але, можливо, я повинен змінити питання, оскільки саме це шукає більшість людей?

— kqw

Насправді, якщо ви не використовуєте жодне з них в, ви дозволяєте archive.org за умови, що ви не блокуєте заяву про бланк.

— closetnoc

Використання просто "ia_archiver" також має заблокувати "ia_archiver-web.archive.org", тому пізніші здадуться непотрібними (якщо цей бот відповідає стандарту).

— MrWhite

Ви бачите бота ia-archiver (або archive.org_bot) у своїх журналах доступу?

— MrWhite

9

Оновлення : Як зазначає @KevinFegan у коментарях, їх документація змінилася. Нижчена частина описує, як Інтернет-архів обробляв його в минулому (принаймні, у 2014 році).

Їх часто задаються Як я можу сторінка мого сайту виключеної з Wayback машини? посилається на Видалення документів із автомату зворотного зв'язку , в якому документи, що викликаються їх ботом ia_archiver.

Отже, ця запис повинна дозволяти їх боту просканувати весь ваш сайт:

User-agent: ia_archiver
Disallow:

— unor
джерело

Порядок груп не має значення. Найбільш специфічний (тобто. Довгий) агент користувача , який відповідає той , який перемагає. *Група відповідає тільки тоді , коли ні одна інша група не відповідає.

— MrWhite

@ w3d: Ти маєш рацію, цю частину я видалив. Дякую за інформацію :)

— unor

1

Мабуть, це з часом змінилося. Я не можу знайти "ia_archiver" на наданій вами сторінці поширених запитань , і на цій сторінці щоденника Archive.org від 25 квітня 2017 року Марк Грем говорить: "Агент користувача" ia_archiver "використовується Alexa Internet, а не Інтернет-архівом.

— Кевін Феган

@KevinFegan: Дякуємо за ваше повідомлення! Я оновив свою відповідь, щоб посилатися на архівовані версії документації, яка містила цю назву.

— unor

Мені подобається, як вони навмисно ускладнюють справи, щоб вони могли піти!

— Ultralisk

5

Тут справді два питання:

Чи буде robots.txtна сайті Disallow (блок) Вайбак сканування сайту.
Чи сканує Wayback ваш сайт.

Для пункту №1:
Як уже говорили інші, правильний запис для robots.txt такий:

User-agent: ia_archiver
Disallow:

Майте на увазі, що може пройти деякий час (можливо, довгий час), щоб Wayback помітив усі зміни, внесені в robots.txt.

Для того, щоб перевірити , якщо robots.txtна вашому сайті буде дозволяти Вайбак сканувати ваш сайт:

Перейдіть за цією URL-адресою: https://archive.org/web/
У полі у верхній частині сторінки введіть URL-адресу сторінки на своєму сайті та натисніть "Browse History"кнопку.
Або у вікні "Зберегти сторінку зараз" (зараз внизу праворуч) і введіть URL-адресу сторінки на вашому сайті та натисніть "Save Page"кнопку.

У цей момент ви повинні побачити 1 з 3 речей:

Ви побачите повідомлення про помилку, яке вказує на те, що Wayback не може отримати доступ до сторінок цього сайту через "robots.txt".
Ви побачите "календар" історичних точок збереження для сторінки на вашому сайті. У цьому випадку ви знаєте, що Wayback НЕ заблокований від сканування вашого сайту.
Або ви побачите повідомлення про те, що у Wayback немає архіву цієї сторінки, і пропозиція натиснути посилання, щоб додати сторінку до Wayback. І в цьому випадку ви знаєте, що Wayback НЕ заблокований від сканування вашого сайту.

Тепер для пункту №2:

Чи сканує Wayback ваш сайт?

Тільки тому, що ви дозволяєте Wayback сканувати ваш сайт, не означає, що вони (коли-небудь) скануватимуть ваш сайт.

Відповідно до FAQ FAQ (наголос додано):

Як я можу включити свій сайт в автомат Wayback?

Більшість наших заархівованих веб-даних надходять із наших власних сканів чи сканів Alexa Internet. Жодна організація не має "сканувати мій сайт зараз!" процес подання. Сканування Internet Archive, як правило, знаходить сайти, які добре пов’язані з іншими сайтами . Найкращий спосіб переконатись у тому, що ми знайдемо ваш веб-сайт - це переконатися, що він включений в онлайн-каталоги та що подібні / пов’язані з ним сайти посилаються на вас.

Alexa Internet використовує власні методи для виявлення сайтів для сканування. Можливо, буде корисно встановити безкоштовну панель інструментів Alexa та відвідати сайт, на який ви хочете сканувати, щоб переконатися, що вони знають про це.

Незалежно від того, хто сканує сайт, слід переконатися, що правила "robots.txt" вашого веб-сайту та вказівки щодо роботи META на сторінці не вказують сканерам уникати вашого сайту.

Оновлення: 09 травня-2017

Інші залишили коментарі / відповіді, вказуючи на те, що Archive.org більше не вшановує robots.txt. Можливо, це "незавершене виробництво", і, зрештою, це станеться, але я не бачив такої нової поведінки ще.

Випадок для цього , здається, виходить з цієї статті: Robots.txt: robots.txt : передсмертна записка по archiveteam.org. Хоча ця сторінка мало, якщо нічого хорошого сказати про "Robots.txt", вона ніде не згадує, що Archive.org більше не буде шанувати robots.txt.

Також зверніть увагу: ця стаття розміщена на archiveteam.org, що, безумовно, немає archive.org, і я не впевнений, що існують (офіційні) стосунки між archive.orgта archiveteam.org.

Насправді ця сторінка про команду Archive Team , схоже, оголошує відмінність між та (наголосом додано):archive.org archive.orgarchiveteam.org

Створений у 2009 році, команда Archive ( не плутати з командою archive.org Archive-It Team) - це шахрайський архівістський колектив, присвячений збереженню копій веб-сайтів, що швидко вмирають або видаляються заради історії та цифрової спадщини. ...

У будь-якому випадку, я вирішив спробувати це, і я виявив, що, принаймні в цей час, Archive.org ВИНАГА вшановує robots.txt:

Я знайшов випадковий предмет на eBay: Елемент №: 131795294232
Натисніть, щоб переглянути продані товари:

Відкриється сторінка "Продані товари": http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Скопіюйте посилання у буфер обміну.
Перейдіть на web.archive.org і вставте посилання з eBay.
Ви побачите, що archive.orgвказує на те, що "Сторінка не може відображатися через robots.txt."

Отже, в цей час я залишаюсь непереконаним, але я хотів би, щоб він був неправдивим ... було б чудово, якби це було правдою.

— Кевін Феган
джерело

— Вимкнення

@wortwart - Це було б чудово, якби це було так (див. оновлення, яке я додав до своєї відповіді). Чи є у вас посилання на інформацію про це?

— Кевін Феган

Впевнено : blog.archive.org/2017/04/17/… "Кілька місяців тому ми перестали посилатися на файли robots.txt на веб-сайтах уряду та військових служб США (...) Зараз ми хочемо зробити це ширше. "

— wortwart

4

Оновлення 2017 року

Архівний бот тепер не піклується про ваш robots.txt.

Якщо ви дійсно хочете заблокувати його, надішліть їм електронний лист відповідно до цієї сторінки або заблокуйте їх IP-адресу через htaccess.

— Гойло
джерело

2

Дивіться оновлення травня 2017 роки мій відповідь: Як правильно (дис) дозволяє Archive.org бот ...? . Архівний бот все ще піклується про файл robots.txt, за винятком урядових веб-сайтів. Зауважте, що ви згадували статтю з www.archiveteam.org, яка не стосується Archive.org. --->

— Кевін Феган

---> Хоча ця сторінка мало, якщо нічого хорошого сказати про "Robots.txt", вона ніде не згадує, що Archive.org більше не буде шанувати robots.txt. Відповідна стаття Archive.org така: Robots.txt, призначений для пошукових систем, не працює добре для веб-архівів . "Кілька місяців тому ми перестали посилатися на файли robots.txt на веб-сайтах уряду та військових служб США (...). Зараз ми хочемо зробити це більш широко".

— Кевін Феган

Так. Тепер Архів повністю ігнорує запити на видалення.

— Ultralisk

3

Робота robots.txt ia_archiver заборонити запис (із знаком "/") повинна відповідати потребі, яку ви описуєте ("зберегти для вічності", але ще не публічно).

Я просто зробив швидкий тест, коментуючи запис ia_archiver заборонити для сайту, який мав його принаймні за останні 10 років. Потім я переглянув сайт на archive.org/web, і він виявив схопи, які він зібрав у 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 та 2017 роках! Це означає, що Archive.org ніколи суворо не шанував те, що інші вважали заявою "не заархівувати" протягом цих років, це було лише не викриттям архівованих копій.

— мікрофон
джерело

2

"ia_archiver" зараз (ab) використовується Alexa, деякі джерела кажуть: 1 , 2 .
Archive.org зараз (2018) взагалі НЕ поважає "robots.txt". 3 Не тільки для сторінок mil / gov, але й для всіх сторінок. Як я мав досвід із власним приватним веб-сайтом, який з 2012 року мав ia-виключення robots.txt; і тепер я раптом з’ясував, що їх повзають і зберігають усі роки, і тепер видно всю історію. Це відчуття зради. > :-(

— Карл
джерело

1

Я спробував robots.txtметод, і він не спрацював. Тож я зв’язався з веб-сайтом на електронну адресу info@archive.org:

Здравствуйте,

Чи можете ви видалити мій особистий веб-сайт dimitarnestorov.com зі свого архіву?

Дякую!

Димитар

І я отримав таку відповідь:

Здравствуйте,

Інтернет-архів може виключати веб-сайти з Wayback Machine (web.archive.org), але ми спочатку з повагою просимо вас допомогти нам переконатися, що ви є власником сайту чи автором вмісту сайту dimitarnestorov.com, виконавши будь-яке з наступних дій:

(Примітка. Деякі з цих параметрів можуть посилатися на вміст, розташований у попередніх захопленнях Wayback Machine, та / або документацію, яка, можливо, стосується вказаного періоду часу.)

опублікуйте свій запит у поточній версії сайту (та надішліть нам посилання).

надішліть запит від головного контакту електронної пошти, вказаного на сайті, та покажіть нам, де він може бути розміщений (якщо такий присутній).

надішліть запит з електронного листа реєстратора (якщо публічний доступ для перегляду WHOIS ви можете зв’язати з нами) або електронного листа веб-майстра, вказаного на сайті.

вкажіть нам, де ваша особиста інформація (ім’я, контактна особа, зображення себе) відображається на сайті таким чином, що визначає вас як власника веб-сайту або автора вмісту, який ви хочете виключити - у цьому випадку ми запитуємо щоб підтвердити свою особу за допомогою сканування дійсного ідентифікатора фотографії (конфіденційну інформацію, таку як дата народження, адреса чи номер телефону, можна редагувати).

надішліть нам повідомлення від хостинг-компанії чи реєстратора, адресованого вам як власнику домену.

(Примітка. Просте згадування когось імені / імені користувача та / або гіперпосилання / переспрямування між сайтами / сторінками / акаунтами саме по собі, як правило, недостатньо для виключення архівів.)

Якщо жоден із цих варіантів вам не доступний, повідомте нас у відповіді на цей електронний лист.

Ми будемо вдячні, якщо ви допоможете нам зберегти якомога більше архіву. Тому, будь ласка, повідомте нас, чи є лише конкретні URL-адреси чи каталоги, щодо яких ви заклопотані, щоб ми могли залишити решту архівів доступними.

Як ви можете знати, Інтернет-архів - це неприбуткова цифрова бібліотека, яка прагне підтримувати за допомогою Wayback Machine вільно доступний історичний запис Інтернету. Матеріали в архівах не використовуються Інтернет-архівом для комерційного отримання прибутку.

Команда Інтернет-архівів

Я створив wayback-removal-request.htmlтакий вміст (навіть не дійсний HTML):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Завантажив його та відповів на свій електронний лист із URL-адресою, з якої веб-сторінка була доступна, і пізніше я отримав таку відповідь:

Здравствуйте,

Сайт / URL-адреса, на яку посилається ваш електронний лист нижче, тепер надіслано для виключення з автомата Wayback за адресою http://www.archive.org (стосовно всіх попередніх захоплень):

dimitarnestorov.com

Будь ласка, дозвольте до дня, щоб автоматизовані частини процесу запустили свій курс і зміни вступили в силу.

Команда Інтернет-архівів

Коли я перевірив через пару годин, мій веб-сайт був видалений.

— Димитар Несторов
джерело