Чому baidu сканує мій сайт як божевільний


12

Коли я перевіряю свій журнал apache, я можу побачити, що baidu протягом останніх 2 тижнів переглядає мій веб-сайт 10 разів на день.

Справа не в тому, що мені це дуже важливо, але мені дуже цікаво, чому він це робить. Це дійсно невеликий веб-сайт на одній сторінці з не надто вхідними посиланнями.

Чи є причина тому?

220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)"
123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [10/Mar/2012:12:25:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.111 [10/Mar/2012:13:33:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:13:34:03 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:14:12:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [10/Mar/2012:14:23:41 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:14:23:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.94 [10/Mar/2012:15:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.183 [10/Mar/2012:15:26:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.92 [10/Mar/2012:17:45:55 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.71 [10/Mar/2012:17:45:57 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.79 [10/Mar/2012:17:46:04 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.103 [10/Mar/2012:17:47:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.179 [10/Mar/2012:17:48:37 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.108 [10/Mar/2012:18:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.185 [10/Mar/2012:18:38:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.96 [10/Mar/2012:19:25:50 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:19:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.101 [10/Mar/2012:20:25:51 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:20:26:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [10/Mar/2012:21:33:38 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [10/Mar/2012:21:34:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.170 [10/Mar/2012:21:57:39 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.98 [10/Mar/2012:22:26:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [10/Mar/2012:22:26:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.104 [10/Mar/2012:23:34:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:23:34:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.110 [11/Mar/2012:00:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:00:34:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.103 [11/Mar/2012:02:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.177 [11/Mar/2012:02:37:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:03:34:30 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [11/Mar/2012:03:35:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [11/Mar/2012:04:35:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [11/Mar/2012:04:36:16 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.115 [11/Mar/2012:05:34:31 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:05:35:12 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:06:24:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.181 [11/Mar/2012:06:24:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.112 [11/Mar/2012:07:40:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:07:41:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.95 [11/Mar/2012:08:29:42 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [11/Mar/2012:08:30:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [11/Mar/2012:09:35:23 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:09:36:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.106 [11/Mar/2012:10:39:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.165 [11/Mar/2012:10:40:11 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [11/Mar/2012:11:23:57 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"

Чи отримуєте ви будь-який органічний трафік від Baidu.com? Якщо ні, я б заблокував павука, якщо він з'їдає вашу пропускну здатність так.
Анагіо

Не впевнений, що ви маєте на увазі під органічним трафіком, але якщо ви маєте на увазі користувачів, які використовують пошукову систему baidu, відповідь - ні, я не хочу. Це не займає багато пропускної спроможності або ресурсів. Мені просто цікаво, чому Baidu так сильно повзає.
йоколоко

1
Так, це я маю на увазі. Якщо вона не займає велику пропускну здатність, я б не хвилювався, якщо це не триває. Ви завжди можете їм надіслати електронною поштою. "Якщо ви знайдете будь-який необгрунтований доступ від Baiduspider, будь ласка, повідомте нас на spiderhelp@baidu.com"
Anagio

1
Я б заблокував павук пошукової системи, якщо ви ніколи не хочете отримувати від них будь-який пошуковий трафік, а не лише тому, що в даний час ви не отримуєте жодного - особливо враховуючи, що Baidu є третьою за величиною пошуковою системою в світі за ринком. поділитися.
Lèse majesté

3
Baidu дуже агресивний, поки не отримує достатньо вашого індексується сайту. Там є скребки, які претендують на Baidu, я використовую botsvsbrowsers.com, щоб їх ідентифікувати та заборонити, коли речі виходять з рук. Яндекс також може генерувати той самий вид трафіку.
Лабораторії Фіаско

Відповіді:


7

Це не здається чимось, про що ви повинні занадто сильно переживати, Google схожим чином сканує деякі мої сайти, але це може бути фальшивий бот, тому перегляньте посилання нижче ...

Baidu павук Ч (Chrome вбудована в перекладі) є це , щоб сказати: -

4. Чому Baiduspider постійно сканує мій сайт? Для того, щоб забезпечити подання останньої інформації, Baiduspider обробляє нові сторінки або сторінки, які часто оновлюються на вашому сайті. Перевірте журнал, щоб перевірити, чи обходимо сканування з Baiduspider.

Щоб уникнути зайвого сканування спамерами чи іншими проблемами, які прикидаються Baiduspider, ви можете перевірити журнал. Якщо ви виявите ненормальне повзання, повідомте нас на spiderhelp@baidu.com та надайте журнал Baiduspider.

Baidu пропонує свою власну версію інструментів для веб-майстрів (функція перекладу хрому знадобиться при доступі до самих інструментів), можливо, підписавшись на них, можна отримати деякі відповіді. Google WMT пропонує обмежену здатність керувати швидкістю сканування, можливо, їхній інструмент пропонує деяку подібну функціональність.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.