Контроль над Інтернет-архівом, окрім просто «Заборонити /»?


13

Чи існують якісь механізми контролю за тим, що архів Інтернету архівує на сайті? Я знаю, заборонити всі сторінки, які я міг би додати :

User-agent: ia_archiver
Disallow: /
  1. Чи можу я сказати боту, що я хочу, щоб вони сканували мій сайт раз на місяць або раз на рік?

  2. У мене є веб-сайт / сторінки, які не / архівуються неправильно через недобрані активи. Чи є спосіб сказати боту Internet Archive, які активи потрібні, якщо він збирається захопити сайт?


Мені також дуже цікаві відповіді на це. +1 :)
Tim Tim

Відповіді:


8

Примітка . Ця відповідь стає все більш застарілою.

Найбільшим учасником веб-колекції Інтернет-архіву став Alexa Internet. Матеріал, який Alexa сканує для своїх цілей, був переданий IA через кілька місяців. Додавання правила заборони, зазначеного у запитанні, не впливає на ці сканування, але Wayback буде "зворотно" шанувати їх (забороняючи доступ, матеріал все ще буде в архіві - ви повинні виключити робота Alexa, якщо ви дійсно хочете утримати свій матеріал поза Інтернет-архіву).

Можливо, є способи вплинути на сканування Alexa, але я з цим не знайомий.

Оскільки IA розробила власного сканера (Heritrix), вони почали робити власні скани, але вони, як правило, цілеспрямовані (вони виконують сканування перед виборами до Бібліотеки Конгресу та роблять національні сканування для Франції та Австралії тощо). Вони не беруть участь у подібних скануваннях світового масштабу, які проводять Google та Alexa. Найбільший сканування IA був спеціальним проектом для проскакування 2 мільярдів сторінок.

Оскільки ці скани працюють за графіками, що випливають із конкретних факторів проекту, ви не можете впливати на те, як часто вони відвідують ваш сайт або якщо вони відвідують ваш сайт.

Єдиний спосіб безпосередньо впливати на те, як і коли сканує ваш веб-сайт, це використовувати їх сервіс Archive-It . Цей сервіс дозволяє вказати спеціальні сканування. Отримані дані (з часом) будуть включені до веб-колекції IA. Однак це платна послуга передплати.


3
Ваш коментар щодо того, як IA робив власні сканування, був вірним у 2011 році, і вже не відповідає дійсності у 2016 році: ми зараз багато скануємо самостійно.
Грег Ліндаль

@GregLindahl, ласкаво просимо додати оновлену відповідь на це питання
Stephen Ostermiller

2

Більшість пошукових систем підтримує директиву "Сканування-затримка", але я не знаю, чи є IA. Ви можете спробувати, хоча:

User-agent: ia_archiver
Crawl-delay: 3600

Це обмежить затримку між запитами до 3600 секунд (тобто 1 годину) або ~ 700 запитів на місяць.

Я не думаю, що №2 можливий - бот IA захоплює активи як і коли вважає за потрібне. Може бути обмежено розмір файлу, щоб уникнути використання занадто великого обсягу пам’яті.


@Kris: Встановлення затримки сканування слід зробити це через проксі. Якщо у вас є 30 сторінок, і ви скажете сканеру потрапляти лише раз на день, швидше за все, кожна сторінка буде оновлюватися приблизно кожні 30 днів. (Очевидно, не гарантія.)
НевдоволенийGoat

Однак теоретично так, якщо ви робите архівні сканування, ви ніколи не підкорятиметесь такому правилу. Сканування сайту документом на день означає, що ви не можете отримати хороший захоплення сайту в конкретний момент часу. Якщо цей атрибут слід дотримуватись, він би мав верхню межу 1-5 хвилин у будь-якому архівному скануванні.
Кріс

Ну добре, я бачу ваш погляд.
НезадоволенняGoat

Я щойно дивився на нещодавно випущений Heritrix 3 і бачу, що вони додали поводження з директивою про затримку сканування, але вона за замовчуванням дотримується лише 300 секунд (5 хвилин).
Кріс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.