Веб-майстри robots.txt

5

Чи можу я викликати Google для перевірки мого robots.txt?

Я читаю відповіді в цьому запитанні, але вони все ще залишають мої питання відкритими: чи кешує Google robots.txt? Я не знайшов способу в Інструментах для веб-майстрів Google викликати повторне завантаження мого robots.txt . Через деяку помилку мій robots.txt був замінений на: User-agent: * Disallow: / А тепер весь мій вміст …

11 google google-search-console robots.txt

3

Чи дотримується програма Google Preview Robots.txt?

Тому що це впевнено виглядає так, як і є. На моїх сайтах ми забороняємо каталог зображень, а в попередньому перегляді відсутні всі зображення, завдяки чому сайт виглядає химерним. Це так і чи існує спосіб дозволити лише боту для попереднього перегляду отримати доступ до зображень за допомогою robots.txt? EDIT: Схоже, попередній …

11 google robots.txt

1

Поєднайте користувальницькі агенти в robots.txt

Чи можуть бути перелічені користувацькі агенти разом із дотриманням їх загальних правил, як-от так, в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

11 web-crawlers robots.txt user-agent

3

Чи може індекс Sitemap містити інші індекси Sitemap?

У мене є двомовний веб-сайт з індексом карти сайту для кожної мови, який посилається на кілька різних мап сайту (один для відео, один для статичного вмісту та один для статей). Я хотів би ввести ще одну мапу сайту, яка пов'язує індекси Sitemap, щоб я міг пов’язати цей файл Sitemap у …

11 google sitemap robots.txt

1

Як працює “Noindex:” у robots.txt?

Сьогодні я зіткнувся з цією статтею у своїх новинах щодо SEO. Здається, це означає, що ви можете використовувати Noindex:директиви на додаток до стандартних Disallow:директив у robots.txt . Disallow: /page-one.html Noindex: /page-two.html Схоже, це не дозволить пошуковим системам сканувати сторінку першу, а також заважає індексувати сторінку другу. Чи підтримується ця директива …

10 web-crawlers robots.txt googlebot noindex

2

Дозволити лише роботам Google і Bing сканувати сайт

Я використовую наступний файл robots.txt для сайту: Мета - дозволити googlebot та bingbot отримати доступ до сайту за винятком сторінки /bedven/bedrijf/*та заблокувати всі інші боти від сканування сайту. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* …

10 web-crawlers robots.txt

3

Як я можу використовувати robots.txt лише для заборони субдомена?

Моя база коду поділяється між кількома середовищами (live, staging, dev) та піддоменами ( staging.example, dev.exampleі т. Д.), І лише два можна дозволити сканувати (тобто. www.exampleІ example). Зазвичай я можу змінювати /robots.txtта додавати Disallow: /, але через спільну базу коду я не можу змінювати, /robots.txtне впливаючи на всі (під) домени. Будь-які …

10 domains subdomain robots.txt multi-subdomains

6

Як правильно (не) дозволити бота archive.org? Чи змінилися речі, якщо так, коли?

У мене є веб-сайт, який я, як правило, не хочу індексувати пошуковими системами, але хочу зберегти його на вічність на archive.org. Тож моє robots.txtпочинається з цього: User-agent: * Disallow: / Сьогодні, як повідомляє archive.org, я повинен додати наступне у своєму, robots.txtщоб дозволити їх ботам: User-agent: ia_archiver Disallow: Але я вже …

10 web-crawlers robots.txt internet-archive

10

Потрібно зупинити ботів від вбивства мого веб-сервера

У мене виникають проблеми з ботом EXTREME на деяких моїх веб-сайтах в моєму хостинг-акаунті. Боти використовують понад 98% моїх ресурсів процесора та 99% моєї пропускної здатності для всього мого облікового запису хостингу. Ці боти генерують понад 1 ГБ трафіку на годину для моїх сайтів. Реальний людський трафік для всіх цих …

9 php htaccess robots.txt

1

Чи слід блокувати сторінки архіву Wordpress з пошукових систем?

Я використовую WordPress та /sample-post/URL-адреси для своїх публікацій та /yyyy/mm/архівів. Google повністю індексував сайт. Оскільки в архівах наразі відображаються повні публікації, я подумав, що я не повинен дозволити Google індексувати сторінки архіву, оскільки вони містять повні публікації, і це буде дублювати вміст. Таким чином, мій robots.txt містить: Disallow: /2009/ Disallow: …

9 seo wordpress robots.txt duplicate-content google-index

4

Роботи, відхилені доменом, все ще перелічені в результатах пошуку

Таким чином, на всіх наших веб-сайтах, які не мають пошуку, ми застосували файл robots.txt (у розділі Як виключити веб-сайт із результатів пошуку в режимі реального часу Google? Або будь-який інший подібний питання). Однак якщо пошукові терміни є досить конкретними, сам домен можна знайти за результатами. Приклад цього можна знайти тут …

9 seo robots.txt

Запитання з тегом «robots.txt»