Запитання з тегом «web-crawlers»

Комп'ютерна програма, яка отримує доступ до веб-сторінок для різних цілей (для скребки вмісту, для надання пошуковим системам інформації про ваш сайт тощо)

1
Чому baidu сканує мій сайт як божевільний
Коли я перевіряю свій журнал apache, я можу побачити, що baidu протягом останніх 2 тижнів переглядає мій веб-сайт 10 разів на день. Справа не в тому, що мені це дуже важливо, але мені дуже цікаво, чому він це робить. Це дійсно невеликий веб-сайт на одній сторінці з не надто вхідними …

4
Статус скануваного Ajax?
Я побачив, що в Google є приємна пропозиція / стандарт щодо того, щоб зробити програми Ajax сканувальними, через #! (хеш-баг). http://googlewebmastercentral.blogspot.com/2009/10/proposed-for-making-ajax-crawlable.html Мої запитання: Вони вже використовують цю "пропозицію" в реальному світі? Чи інші пошукові системи - Bing конкретно, також використовують або планують його використовувати?

4
Google не сканує файли CDN
Я помітив, що Google Webmaster Tools повідомляє про багато заблокованих ресурсів на моєму веб-сайті. Зараз усі "заблоковані ресурси" - це .css, .js та зображення (.jpg, .png), які я обслуговую із Cloudfront CDN. Я витратив багато часу на тестування і намагався з’ясувати, чому Google не сканує ці файли і повідомляє про …

2
Яких ботів насправді варто запустити на сайт?
Написавши ряд ботів і побачивши величезну кількість випадкових ботів, які трапляються на сканування сайту, мені цікаво, як веб-майстру, які боти дійсно варто пускати на сайт? Моя перша думка полягає в тому, що надання ботів на сайт потенційно може принести йому реальний трафік. Чи є якась причина, щоб дозволити ботам, які, …

2
Інструменти Google для веб-майстрів повідомляють мені, що роботи блокують доступ до карти сайту
Це мій robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Але Google Webmaster Tools повідомляє мені, що роботи блокують доступ до карти сайта: Під час спроби отримати доступ до вашої Sitemap ми виявили помилку. Будь ласка, переконайтеся, що ваш файл Sitemap відповідає нашим інструкціям та отримати доступ до …

4
Adsense click bot - це бомбардування мого сайту
У мене зараз сайт, який нараховує приблизно 7000 - 10000 переглядів сторінок на день. Починаючи з 1:00 ранку 13.07.12, я помітив, що CTR різко зростав. Ці кліки будуть зараховані, а потім скорочені. Отже, це були очевидно шахрайські клацання. Наступного дня у мене було близько 200 клацань, приблизно 100 з них …

6
Який найкращий спосіб виключити ботів із кількості переглядів?
Мій веб-сайт підраховує кількість переглядів відвідувачів на певних сторінках. Я помітив, що Google та інші боти "натискають" на мій сайт, як божевільні, і деякі сторінки отримують нереальні підрахунки переглядів (порівняно з тими, які виробляють люди). Я прошу найкращої практики виключити цих ботів із моєї точки зору. Очевидно, що простий "користувальницький …

1
Поєднайте користувальницькі агенти в robots.txt
Чи можуть бути перелічені користувацькі агенти разом із дотриманням їх загальних правил, як-от так, в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

1
Googlebot надсилає тисячі запитів до нашого локатора карт та використовує квоту API
На сайті нашого клієнта є сторінка локатора магазину. Кінцевий користувач вводить свій поштовий індекс та радіус пошуку, і ми відображаємо результати на карті Google. Нещодавно ми почали помічати, що на сайті потрапляє межа вільного пошуку карт (приблизно 25 000 за 24 години) без помітного збільшення загального трафіку. Я ввімкнув кілька …

1
Як працює “Noindex:” у robots.txt?
Сьогодні я зіткнувся з цією статтею у своїх новинах щодо SEO. Здається, це означає, що ви можете використовувати Noindex:директиви на додаток до стандартних Disallow:директив у robots.txt . Disallow: /page-one.html Noindex: /page-two.html Схоже, це не дозволить пошуковим системам сканувати сторінку першу, а також заважає індексувати сторінку другу. Чи підтримується ця директива …

2
Дозволити лише роботам Google і Bing сканувати сайт
Я використовую наступний файл robots.txt для сайту: Мета - дозволити googlebot та bingbot отримати доступ до сайту за винятком сторінки /bedven/bedrijf/*та заблокувати всі інші боти від сканування сайту. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* …

2
Плюс увійдіть перед URL-адресами в агентах користувача
Я запускаю невеликий веб-сканер і мусив вирішити, який агент користувача використовувати для цього. Списки агентів сканування , а також Вікіпедія пропонують такий формат: examplebot/1.2 (+http://www.example.com/bot.html) Однак деякі боти опускають знак плюс перед URL-адресою. І мені цікаво, що це означає в першу чергу, але не зміг знайти жодного пояснення. RFC 2616 …

1
Як Google встиг просканувати мої 403 сторінки?
У мене в папці в школі було кілька приватних файлів. Ви можете побачити, що файли існували, перейшовши на сторінку myschool.edu/myusername/myfolder, але намагаючись отримати доступ до самих файлів через myschool.edu/myusername/myfolder/myfile.html, повертає помилку 403. І все ж Google якось зумів схопити вміст цих приватних файлів і зберегти їх у своєму кеші! Як …

6
Як правильно (не) дозволити бота archive.org? Чи змінилися речі, якщо так, коли?
У мене є веб-сайт, який я, як правило, не хочу індексувати пошуковими системами, але хочу зберегти його на вічність на archive.org. Тож моє robots.txtпочинається з цього: User-agent: * Disallow: / Сьогодні, як повідомляє archive.org, я повинен додати наступне у своєму, robots.txtщоб дозволити їх ботам: User-agent: ia_archiver Disallow: Але я вже …

2
Чи варто відмовитися від схеми сканування AJAX?
Тож тепер Google скасувала схему сканування AJAX . Вони кажуть, що не заважайте впроваджувати його на нових веб-сайтах, оскільки це більше не потрібно, оскільки Googlebot зараз не має проблем із динамічним вмістом. Чи слід ми негайно довіряти цьому твердженню чи краще дотримуватися настільки ж застарілого стандарту?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.