Чи можна сповільнити частоту сканування Baiduspider?

18

Багато було зроблено частоти повзання павуків Baidu. Це правда: «Байдуспідер повзе, як божевільний».

Я відчував це явище на сайтах, з якими працюю. Принаймні в одному екземплярі я виявив, що Baiduspider повзає приблизно з тією ж частотою, що і Googlebot, незважаючи на те, що Baidu доставляє приблизно .1% стільки трафіку, скільки Google.

Мені хотілося б, щоб ті відвідування на моєму сайті були якнайменшими, ніж їх кількість (можливо, одного разу вони виростуть?), Але я не можу виправдати, що дозволяють настільки сильно навантажувати свій сервер.

Прийнята відповідь на вищезазначене запитання передбачає, що Baidu Webmaster Tools пропонує можливість обмежити швидкість сканування, але я не вагаюся відкрити цю (лише для китайців) банку глистів.

Хтось має досвід обмеження швидкості сканування Baiduspider за допомогою BWT? Чи є інший спосіб обмежити це навантаження?

— саммбранд
джерело

11

Велике запитання, і когось із багатьох веб-майстрів може зацікавити, оскільки павук Baidu є сумно агресивним та може запускати ресурси з серверів ...

Як зазначено в новинах веб-пошуку Baidu, павук Baidu не підтримує налаштування сповіщення про затримку сканування , а замість цього вимагає зареєструвати та підтвердити свій сайт на його платформі Baidu Webmaster Tools, про що йдеться тут на його сайті. Це здається єдиним варіантом керування частотою сканування безпосередньо за допомогою Baidu.

Проблема полягає в тому, що інші спам - боти використовувати агент користувача Бейдет (перераховані тут під номером 2) , щоб проіндексувати ваш сайт, як вказані в їх часто задаються питаннях тут під номером 4. Таким чином , Сторона, яка запитує більш повільна швидкість сканування з Baidu не може вирішити все.

Отже, якщо ви вирішили використовувати Інструменти для веб-майстрів Baidu, можливо, також було б доцільно порівняти його користувальницькі агенти з відомими IP-адресами, використовуючи такий ресурс, як база даних Bots vs Browsers , або за допомогою зворотного пошуку DNS

Єдині інші варіанти - або заблокувати всі користувацькі агенти Baidu, і таким чином пожертвувати потенційним трафіком від Baidu, або спробувати обмежити надмірні запити, використовуючи щось на зразок mod_qos для Apache, який стверджує, що керувати:

Максимальна кількість одночасних запитів до місцезнаходження / ресурсу (URL) або віртуального хоста.
Обмеження пропускної здатності, наприклад, максимально дозволена кількість запитів в секунду до URL або максимальна / мінімум завантажених кібайт в секунду.
Обмежує кількість подій запиту в секунду (особливі умови запиту).
Він також може «виявити» дуже важливих осіб (VIP), які можуть отримати доступ до веб-сервера без або з меншими обмеженнями.
Універсальний фільтр рядка запиту та заголовок для відмови від несанкціонованих операцій. Попросити обмеження та фільтрацію даних про тіло (потрібен mod_parp).
Обмеження на рівні з'єднання TCP, наприклад, максимальна кількість дозволених з'єднань з однієї адреси IP-джерела або динамічне керування постійним режимом роботи.
Віддає перевагу відомим IP-адресам, коли на сервері закінчується безкоштовне підключення TCP.

Я не знайшов повідомленого досвіду роботи з Baidu Webmaster Tools, який повільно завантажується і має проблеми з перекладом (також немає англійської версії). Це може бути корисним, але, звичайно, на основі думки.

— дан
джерело

1

Це дуже корисно @Dan. Випробування декількох із цих рішень (Інструменти для веб-майстрів Baidu - справжній біль).

— Самтебранд

1

Спасибі! Чудово - я оновлю це, якщо знайду й інші варіанти. Це запитання відображає безліч розчарувань веб-майстрів агресивними ботами та проблеми взаємодії з ними (наприклад, Інструменти для веб-майстрів Baidu). Сподіваємось, законні боти врахують це, і стануть доступні кращі інструменти / варіанти.

— дан

@samthebrand і dan - будь ласка, повідомте про це! Ви знайшли якісь інші рішення, які можете порекомендувати?

— lazysoundsystem

5

Після багатьох досліджень і експериментів з цим я нарешті кусав кулю і створив обліковий запис інструментів для веб-майстрів Baidu. Її досить просто використовувати, озброївшись Google Translate в іншому вікні. Можливо, вам потрібно буде активувати firebug, щоб мати можливість копіювати та вставляти китайський текст із кнопок, які ви не можете зафіксувати у звичайному режимі браузера.

Після налаштування вам потрібно зачекати кілька днів, щоб з’явилися дані сканування, і тоді ви можете налаштувати швидкість сканування. Це відображається в розділі "Тиск", до якого ви повинні мати доступ за цією URL-адресою:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Зауважте, що ви зможете використовувати цю URL-адресу лише в тому випадку, якщо у вас є налаштування облікового запису Інструментів для веб-майстрів Baidu і ви пов’язали URL свого веб-сайту зі своїм обліковим записом для відповідного веб-сайту). Тут ви побачите повзунок із вашою поточною швидкістю сканування в центрі (у моєму випадку 12676 запитів на день. Просуньте його вліво, щоб зменшити швидкість сканування.

Я досі не маю уявлення, чи дійсно він поважає ваш запит. Це дає вам попередження, яке говорить щось подібне. "Ми рекомендуємо використовувати швидкість сканування Baidu на веб-сайті за замовчуванням. Тільки якщо на вашому веб-сайті є проблеми з нашим скануванням, використовуйте цей інструмент для його налаштування. Щоб підтримувати нормальне сканування вашого сайту, Baidu врахує ваше коригування швидкості сканування з урахуванням фактичного умови сайту та тому не можуть гарантувати коригування відповідно до вашого запиту. "

— user35703
джерело

1

Я впевнений, що я не єдиний, хто вдячний за це оновлення - чи поважає це запит? Ви б порадили створити обліковий запис?

— lazysoundsystem

Щойно оновив пряму URL-адресу на сторінці коригування частоти сканування, оскільки вона вже глибше похована в Інструментах для веб-майстрів (вже не в меню). Google translate дуже важко знайти через заплутані переклади ;-)

— odony

-1

Так, ви можете використовувати Crawl-delayпараметр в robots.txt, щоб встановити кількість секунд, щоб зачекати між послідовними запитами на одному сервері.

User-agent: Baiduspider
Crawl-delay: 100

Перший рядок повідомляє лише веб-сканеру Baidu, щоб виконати команду. 2-й рядок - це час зачекати в секундах між запитами на сервер. Ви можете додати будь-яку затримку часу, яку б вам хотілося для ваших потреб.

Вам потрібно буде додати ці команди до існуючого файлу robots.txt . Якщо у вас ще немає файлу robots.txt , додайте код вище до текстового файлу, збережіть його як robots.txt та завантажте в нього кореневу папку свого веб-сайту, щоб він відображався за адресою нижче:

www.examplesite.com/robots.txt

— Макс
джерело

2

Baiduspider не підтримує функцію сканування-затримки. Дивіться тут .

— samthebrand

Уопс, бачив це в декількох сайтах robots.txt файл, так припустив, що це так! Як іде ця приказка ?!

— Макс