У царині звичайних ботів все залежить від того, що ви цінуєте, і тільки ви можете це вирішити. Звичайно, є Google, Bing / MSN / Yahoo !, Baidu та Yandex. Це основні пошукові системи. Є також різні сайти SEO та зворотних посилань. Правильно чи неправильно, я дозволяю пару великих отримати доступ до мого сайту, але, як правило, вони марні сайти. Я блокую archive.org не тільки в robots.txt, але і по доменному імені та IP-адресі. Це тому, що вони ігнорують robots.txt великий час! Це те, що вам потрібно, щоб відчути. Не обманюйте імена агента. Часто їх підробляють погані люди. Зараз я отримую тисячі запитів на сторінку від джерел, які претендують на Байду, але це не так. Познайомтеся з цими павуками за доменними іменами та блоками IP-адрес та навчіться працювати з ними на тому рівні. Хороші підкоряються robots.txt.
Але мушу вас попередити: є ТОН ботів-схованок, негідних ботів, скребків тощо, що вам потрібно буде часто шукати аналіз журналів і блокувати. Це 5 доларів5! Але це треба зробити. Найбільша загроза для них в наші дні - це низька якість посилань на ваш сайт. У моєму оновленому коді безпеки проти ботів, який я застосував цього року, автоматично випало 7700 посилань низької якості. Звичайно, мій код все ще потребує роботи, але ви розумієте. Погані боти все ще крадуть потенціал сайту.
Минеш довгий час, перш ніж ти розберешся.