Веб-майстри web-crawlers

1

Чому baidu сканує мій сайт як божевільний

Коли я перевіряю свій журнал apache, я можу побачити, що baidu протягом останніх 2 тижнів переглядає мій веб-сайт 10 разів на день. Справа не в тому, що мені це дуже важливо, але мені дуже цікаво, чому він це робить. Це дійсно невеликий веб-сайт на одній сторінці з не надто вхідними …

12 seo web-crawlers baidu

4

Статус скануваного Ajax?

Я побачив, що в Google є приємна пропозиція / стандарт щодо того, щоб зробити програми Ajax сканувальними, через #! (хеш-баг). http://googlewebmastercentral.blogspot.com/2009/10/proposed-for-making-ajax-crawlable.html Мої запитання: Вони вже використовують цю "пропозицію" в реальному світі? Чи інші пошукові системи - Bing конкретно, також використовують або планують його використовувати?

12 seo google ajax web-crawlers

4

Google не сканує файли CDN

Я помітив, що Google Webmaster Tools повідомляє про багато заблокованих ресурсів на моєму веб-сайті. Зараз усі "заблоковані ресурси" - це .css, .js та зображення (.jpg, .png), які я обслуговую із Cloudfront CDN. Я витратив багато часу на тестування і намагався з’ясувати, чому Google не сканує ці файли і повідомляє про …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

2

Яких ботів насправді варто запустити на сайт?

Написавши ряд ботів і побачивши величезну кількість випадкових ботів, які трапляються на сканування сайту, мені цікаво, як веб-майстру, які боти дійсно варто пускати на сайт? Моя перша думка полягає в тому, що надання ботів на сайт потенційно може принести йому реальний трафік. Чи є якась причина, щоб дозволити ботам, які, …

11 seo web-crawlers robots.txt googlebot bingbot

2

Інструменти Google для веб-майстрів повідомляють мені, що роботи блокують доступ до карти сайту

Це мій robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Але Google Webmaster Tools повідомляє мені, що роботи блокують доступ до карти сайта: Під час спроби отримати доступ до вашої Sitemap ми виявили помилку. Будь ласка, переконайтеся, що ваш файл Sitemap відповідає нашим інструкціям та отримати доступ до …

11 google-search-console robots.txt web-crawlers

4

Adsense click bot - це бомбардування мого сайту

У мене зараз сайт, який нараховує приблизно 7000 - 10000 переглядів сторінок на день. Починаючи з 1:00 ранку 13.07.12, я помітив, що CTR різко зростав. Ці кліки будуть зараховані, а потім скорочені. Отже, це були очевидно шахрайські клацання. Наступного дня у мене було близько 200 клацань, приблизно 100 з них …

11 google-adsense advertising web-crawlers botattack

6

Який найкращий спосіб виключити ботів із кількості переглядів?

Мій веб-сайт підраховує кількість переглядів відвідувачів на певних сторінках. Я помітив, що Google та інші боти "натискають" на мій сайт, як божевільні, і деякі сторінки отримують нереальні підрахунки переглядів (порівняно з тими, які виробляють люди). Я прошу найкращої практики виключити цих ботів із моєї точки зору. Очевидно, що простий "користувальницький …

11 php mysql web-crawlers best-practices

1

Поєднайте користувальницькі агенти в robots.txt

Чи можуть бути перелічені користувацькі агенти разом із дотриманням їх загальних правил, як-от так, в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

11 web-crawlers robots.txt user-agent

1

Googlebot надсилає тисячі запитів до нашого локатора карт та використовує квоту API

На сайті нашого клієнта є сторінка локатора магазину. Кінцевий користувач вводить свій поштовий індекс та радіус пошуку, і ми відображаємо результати на карті Google. Нещодавно ми почали помічати, що на сайті потрапляє межа вільного пошуку карт (приблизно 25 000 за 24 години) без помітного збільшення загального трафіку. Я ввімкнув кілька …

10 web-crawlers google-maps

1

Як працює “Noindex:” у robots.txt?

Сьогодні я зіткнувся з цією статтею у своїх новинах щодо SEO. Здається, це означає, що ви можете використовувати Noindex:директиви на додаток до стандартних Disallow:директив у robots.txt . Disallow: /page-one.html Noindex: /page-two.html Схоже, це не дозволить пошуковим системам сканувати сторінку першу, а також заважає індексувати сторінку другу. Чи підтримується ця директива …

10 web-crawlers robots.txt googlebot noindex

2

Дозволити лише роботам Google і Bing сканувати сайт

Я використовую наступний файл robots.txt для сайту: Мета - дозволити googlebot та bingbot отримати доступ до сайту за винятком сторінки /bedven/bedrijf/*та заблокувати всі інші боти від сканування сайту. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* …

10 web-crawlers robots.txt

2

Плюс увійдіть перед URL-адресами в агентах користувача

Я запускаю невеликий веб-сканер і мусив вирішити, який агент користувача використовувати для цього. Списки агентів сканування , а також Вікіпедія пропонують такий формат: examplebot/1.2 (+http://www.example.com/bot.html) Однак деякі боти опускають знак плюс перед URL-адресою. І мені цікаво, що це означає в першу чергу, але не зміг знайти жодного пояснення. RFC 2616 …

10 web-crawlers http user-agent

1

Як Google встиг просканувати мої 403 сторінки?

У мене в папці в школі було кілька приватних файлів. Ви можете побачити, що файли існували, перейшовши на сторінку myschool.edu/myusername/myfolder, але намагаючись отримати доступ до самих файлів через myschool.edu/myusername/myfolder/myfile.html, повертає помилку 403. І все ж Google якось зумів схопити вміст цих приватних файлів і зберегти їх у своєму кеші! Як …

10 web-crawlers security googlebot

6

Як правильно (не) дозволити бота archive.org? Чи змінилися речі, якщо так, коли?

У мене є веб-сайт, який я, як правило, не хочу індексувати пошуковими системами, але хочу зберегти його на вічність на archive.org. Тож моє robots.txtпочинається з цього: User-agent: * Disallow: / Сьогодні, як повідомляє archive.org, я повинен додати наступне у своєму, robots.txtщоб дозволити їх ботам: User-agent: ia_archiver Disallow: Але я вже …

10 web-crawlers robots.txt internet-archive

2

Чи варто відмовитися від схеми сканування AJAX?

Тож тепер Google скасувала схему сканування AJAX . Вони кажуть, що не заважайте впроваджувати його на нових веб-сайтах, оскільки це більше не потрібно, оскільки Googlebot зараз не має проблем із динамічним вмістом. Чи слід ми негайно довіряти цьому твердженню чи краще дотримуватися настільки ж застарілого стандарту?

9 seo web-crawlers googlebot ajax

Запитання з тегом «web-crawlers»