Дозволити лише роботам Google і Bing сканувати сайт


10

Я використовую наступний файл robots.txt для сайту: Мета - дозволити googlebot та bingbot отримати доступ до сайту за винятком сторінки /bedven/bedrijf/*та заблокувати всі інші боти від сканування сайту.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Чи останнє правило User-agent: * Disallow: /забороняє всім ботам сканувати всі сторінки на сайті?


11
Все це завдання стосується мене. Є інші пошукові системи, і кожен, хто їх використовує, не побачить ваш сайт. theeword.co.uk/info/search_engine_market говорить, що 4,99% Інтернету не є у ваших пошукових системах. Це дуже багато людей. Кращим методом було б відслідковувати ваш трафік і перевірити, чи дійсно який-небудь бот викликає проблеми, а потім блокувати їх конкретно.
GKFX

8
Погано себе боти можуть просто повністю ігнорувати ваш в robots.txtбудь-якому випадку
Нік T

8
Дійсно погані боти не хвилюються щодо robots.txt
Освальдо

4
@NickT, в реальному світі не вистачає недоброзичливих ботів, які слідують robots.txt, або, принаймні, Disallow: /правилу. Якщо ваш особистий веб-сайт забивається в землю, оскільки програміст-бот ніколи не вважав, що сервер може бути Raspberry Pi на неправильному кінці 256-бітового з’єднання, корисне виключення ковдри.
Марк

2
@Console чому?
o0 '.

Відповіді:


24

Після останнього запису (розпочатого User-agent: *) супроводжуватимуться всі ввічливі боти, які не ідентифікують себе як "googlebot", "google", "bingbot" або "bing".
І так, це означає, що їм нічого не дозволяють повзати.

Ви можете опустити *в системі /bedven/bedrijf/*.
У оригінальній специфікації robots.txt *не має особливого значення, це просто символ, як і будь-який інший. Тож було б заборонено сканувати сторінки, які буквально мають характер *у своїй URL-адресі.
У той час як Google не дотримується специфікації robots.txt з цього приводу, оскільки вони використовуються *в якості підстановки для "будь-якої послідовності символів", вони в цьому випадку для них не потрібні : /bedven/bedrijf/*і /bedven/bedrijf/означатиме абсолютно те саме: блокувати всі URL-адреси, шлях яких починається з /bedven/bedrijf/.

І нарешті, ви можете зменшити свій robots.txt до двох записів, оскільки запис може мати кілька User-agentрядків :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

5
Зауважте, що Google ігнорує директиву про затримку сканування у robots.txt. Ви повинні встановити його в Інструментах для веб-майстрів Google.
НезадоволенеЗакриття

-2

Боти, особливо погані, можуть ігнорувати файл robots.txt. Тож незалежно від того, що там написано, деякі боти можуть сканувати ваш сайт.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.