Велике запитання, і когось із багатьох веб-майстрів може зацікавити, оскільки павук Baidu є сумно агресивним та може запускати ресурси з серверів ...
Як зазначено в новинах веб-пошуку Baidu, павук Baidu не підтримує налаштування сповіщення про затримку сканування , а замість цього вимагає зареєструвати та підтвердити свій сайт на його платформі Baidu Webmaster Tools, про що йдеться тут на його сайті. Це здається єдиним варіантом керування частотою сканування безпосередньо за допомогою Baidu.
Проблема полягає в тому, що інші спам - боти використовувати агент користувача Бейдет (перераховані тут під номером 2) , щоб проіндексувати ваш сайт, як вказані в їх часто задаються питаннях тут під номером 4. Таким чином , Сторона, яка запитує більш повільна швидкість сканування з Baidu не може вирішити все.
Отже, якщо ви вирішили використовувати Інструменти для веб-майстрів Baidu, можливо, також було б доцільно порівняти його користувальницькі агенти з відомими IP-адресами, використовуючи такий ресурс, як база даних Bots vs Browsers , або за допомогою зворотного пошуку DNS
Єдині інші варіанти - або заблокувати всі користувацькі агенти Baidu, і таким чином пожертвувати потенційним трафіком від Baidu, або спробувати обмежити надмірні запити, використовуючи щось на зразок mod_qos для Apache, який стверджує, що керувати:
- Максимальна кількість одночасних запитів до місцезнаходження / ресурсу (URL) або віртуального хоста.
- Обмеження пропускної здатності, наприклад, максимально дозволена кількість запитів в секунду до URL або максимальна / мінімум завантажених кібайт в секунду.
- Обмежує кількість подій запиту в секунду (особливі умови запиту).
- Він також може «виявити» дуже важливих осіб (VIP), які можуть отримати доступ до веб-сервера без або з меншими обмеженнями.
- Універсальний фільтр рядка запиту та заголовок для відмови від несанкціонованих операцій. Попросити обмеження та фільтрацію даних про тіло (потрібен mod_parp).
- Обмеження на рівні з'єднання TCP, наприклад, максимальна кількість дозволених з'єднань з однієї адреси IP-джерела або динамічне керування постійним режимом роботи.
- Віддає перевагу відомим IP-адресам, коли на сервері закінчується безкоштовне підключення TCP.
Я не знайшов повідомленого досвіду роботи з Baidu Webmaster Tools, який повільно завантажується і має проблеми з перекладом (також немає англійської версії). Це може бути корисним, але, звичайно, на основі думки.