Яких ботів насправді варто запустити на сайт?


11

Написавши ряд ботів і побачивши величезну кількість випадкових ботів, які трапляються на сканування сайту, мені цікаво, як веб-майстру, які боти дійсно варто пускати на сайт?

Моя перша думка полягає в тому, що надання ботів на сайт потенційно може принести йому реальний трафік. Чи є якась причина, щоб дозволити ботам, які, як відомо, не надсилати реальний трафік на сайт, і як ви помічаєте цих "хороших" ботів?


1
+1: гарне запитання; однак важко відповісти на ваше запитання, оскільки ботів так багато.
Зістолоен

@Zistoloen: Так, я знаю, що це важке питання; насправді, причина, про яку я питав, полягає в тому, що головна пошукова система, про яку я знаю, індексувала мільярди сторінок, скаржилася на те, як вони не мали доступу до великої кількості Інтернету, оскільки сайти намагалися заблокувати основні пошукові системи.
промахи


@blunders Дякую, що знайшли час. Я б сам це відредагував, якби мені вдалося розібрати питання :)
НезадоволенеЗапис

@DisgruntledGoat: Немає проблем, дякую за правки!
промахи

Відповіді:


11

У царині звичайних ботів все залежить від того, що ви цінуєте, і тільки ви можете це вирішити. Звичайно, є Google, Bing / MSN / Yahoo !, Baidu та Yandex. Це основні пошукові системи. Є також різні сайти SEO та зворотних посилань. Правильно чи неправильно, я дозволяю пару великих отримати доступ до мого сайту, але, як правило, вони марні сайти. Я блокую archive.org не тільки в robots.txt, але і по доменному імені та IP-адресі. Це тому, що вони ігнорують robots.txt великий час! Це те, що вам потрібно, щоб відчути. Не обманюйте імена агента. Часто їх підробляють погані люди. Зараз я отримую тисячі запитів на сторінку від джерел, які претендують на Байду, але це не так. Познайомтеся з цими павуками за доменними іменами та блоками IP-адрес та навчіться працювати з ними на тому рівні. Хороші підкоряються robots.txt.

Але мушу вас попередити: є ТОН ботів-схованок, негідних ботів, скребків тощо, що вам потрібно буде часто шукати аналіз журналів і блокувати. Це 5 доларів5! Але це треба зробити. Найбільша загроза для них в наші дні - це низька якість посилань на ваш сайт. У моєму оновленому коді безпеки проти ботів, який я застосував цього року, автоматично випало 7700 посилань низької якості. Звичайно, мій код все ще потребує роботи, але ви розумієте. Погані боти все ще крадуть потенціал сайту.

Минеш довгий час, перш ніж ти розберешся.


1

У мене виникли проблеми із тим, що боти Baidu сповільнили роботу мого сервера, поки пошукова система майже не посилала трафіку. Ці боти не поважають файл robots.txt, тому для блокування ботів Baidu просто вставте наступне у свій файл htccess.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

У мене також були проблеми з павуками Bing / Microsoft, які дуже швидко повзають, на відміну від Baidu, вони так поважають файл robots.txt;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.