Який агент користувача потрібно встановити?


18

Є бот Ask, який встановлює цей заголовок:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

Враховуючи це, у мене є такі питання:

  • Якщо я пишу веб-сканер на ім'я Goofy, який користувальницький агент я повинен використовувати?
  • Яка різниця, якщо я кладу Mozilla/2.0або Mozilla/5.0?

Будь-які інші пропозиції щодо того, як я повинен відформатувати свій користувальницький агент, щоб він відповідав чинним стандартам, більш ніж вітаються.

Відповіді:


32

Я головний дизайнер і автор досить масштабного веб-сканера (див. Metadatalabs.com/mlbot (заархівоване посилання) ). Те, що ви запитуєте, торкається дуже важливої ​​для нас теми - можливо, найважливішої частини роботи сканера: ввічливості.

По-перше: причина "Mozilla" полягає в тому, щоб повідомити сайту про те, які можливості вашого браузера. Якщо ваш бот не намагається діяти як браузер, немає жодної конкретної причини, що вам потрібно включити "Mozilla".

Що стосується рядка вашого агента користувача та інших предметів, що стосуються ввічливості:

  1. Виберіть ім’я, яке ви знаєте, що ніхто інший не використовує. Я підозрюю, що якщо ви використовуєте "Goofybot", ви будете добре. Але я перевірив би це, щоб бути впевненим.

  2. Ваш рядок агентів користувача повинен містити посилання на додаткову інформацію про бота. Наприклад, наш рядок читає "MLBot (www.metadatalabs.com/mlbot)".

  3. Переконайтеся, що якщо хтось шукає "Goofybot", ця сторінка є високою (бажано першою) в результатах пошуку.

  4. На вашій сторінці про бота повинно бути написано, для чого ви використовуєте інформацію, для яких IP-адрес ви повзаєте, і містити спосіб, коли люди можуть зв’язатися з вами щодо проблем із ботом.

  5. Ви повинні відповісти на будь-які запитання чи скарги швидко, використовуючи філософію "Замовник завжди правий". Пам'ятайте, якщо ваш бот викликав проблему, на яку скаржиться ця людина, то, ймовірно, це спричинило проблеми на десятках інших сайтів, на які ніхто не скаржився. Вони або не бачили проблем, або просто поставили блок на вашу IP-адресу.

  6. Вам слід побудувати в засобі, щоб запобігти доступу вашого бота до певного доменного імені. Деякі люди не хочуть, щоб ви повзали взагалі і не мали доступу та технічної можливості створювати robots.txt або блокувати в .htaccess. Ми виявили, що ця здатність дозволяє нам сказати комусь: "На жаль, MLBot спричинив проблему. Ми доручили їй ніколи більше не сканувати ваш сайт". Можливо, не дивно, що це заспокоює людей дуже швидко.

  7. Якщо ви ще не поважаєте robots.txt, зробіть це. Ніщо не отримає вам погану репутацію швидше, ніж ігнорування robots.txt.

Ого. Це тривало довше, ніж я очікував. За останні чотири роки я робив кожну з тих помилок, на які натякаю вище, та інших. Однак ми виявили, що якщо ми відкриті до того, що робимо, і чесно спілкуємося (включаючи розміщення інформації про помилки, перш ніж ми отримуємо скарги), більшість веб-майстрів розглядають нас як хорошого громадянина Інтернету.


Це приклад посилання вище ( metadatalabs.com/mlbot ) Тільки показує ("У стадії будівництва") ....
starbeamrainbowlabs

2
@starbeamrainbowlabs Ця відповідь була написана у 2010 році. Лабораторія метаданих закрита у 2012 році.
Джим Мішель

Чи є альтернатива взагалі?
starbeamrainbowlabs

@starbeamrainbowlabs альтернатива чому?
Джим Мішель

З тим, на що було пов’язано на цій сторінці, що відображається у лабораторії метаданих. Оскільки я не бачу цього, я не можу запропонувати альтернативу: P
starbeamrainbowlabs

8

Mozilla / 2.0 та Mozilla / 5.0 - це посилання на браузер Mozilla. Це стало в значній мірі безглуздим, тому що багато сканери використовують його, але слід вказати сайту, щоб він ставився до вашого сканера, як і до будь-якого випадкового перегляду користувачів у звичайному браузері.

Однак є корисним етикет включити URL-адресу, що посилається на сторінку про те, хто ви є, і чому ви повзаєте в наступному розділі. Запитайте, що Джевз може піти лише на ім'я, але вам слід вказати URL-адресу.

Напр

Mozilla/5.0 (compatible; http://example.org/)

Це дозволить веб-адміністраторам з’ясувати, чому ви скануєте їхній сайт, а також зв’язатися з вами, якщо є проблеми з поведінкою вашого сканера.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.