Запитання з тегом «robots.txt»

Robots.txt - це текстовий файл, який використовують власники веб-сайтів для надання інструкцій щодо свого сайту веб-роботам. В основному це говорить роботам, які частини сайту відкриті, а які - закриті. Це називається протокол виключення роботів.

5
Чи можу я викликати Google для перевірки мого robots.txt?
Я читаю відповіді в цьому запитанні, але вони все ще залишають мої питання відкритими: чи кешує Google robots.txt? Я не знайшов способу в Інструментах для веб-майстрів Google викликати повторне завантаження мого robots.txt . Через деяку помилку мій robots.txt був замінений на: User-agent: * Disallow: / А тепер весь мій вміст …

3
Чи дотримується програма Google Preview Robots.txt?
Тому що це впевнено виглядає так, як і є. На моїх сайтах ми забороняємо каталог зображень, а в попередньому перегляді відсутні всі зображення, завдяки чому сайт виглядає химерним. Це так і чи існує спосіб дозволити лише боту для попереднього перегляду отримати доступ до зображень за допомогою robots.txt? EDIT: Схоже, попередній …

1
Поєднайте користувальницькі агенти в robots.txt
Чи можуть бути перелічені користувацькі агенти разом із дотриманням їх загальних правил, як-от так, в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

3
Чи може індекс Sitemap містити інші індекси Sitemap?
У мене є двомовний веб-сайт з індексом карти сайту для кожної мови, який посилається на кілька різних мап сайту (один для відео, один для статичного вмісту та один для статей). Я хотів би ввести ще одну мапу сайту, яка пов'язує індекси Sitemap, щоб я міг пов’язати цей файл Sitemap у …

1
Як працює “Noindex:” у robots.txt?
Сьогодні я зіткнувся з цією статтею у своїх новинах щодо SEO. Здається, це означає, що ви можете використовувати Noindex:директиви на додаток до стандартних Disallow:директив у robots.txt . Disallow: /page-one.html Noindex: /page-two.html Схоже, це не дозволить пошуковим системам сканувати сторінку першу, а також заважає індексувати сторінку другу. Чи підтримується ця директива …

2
Дозволити лише роботам Google і Bing сканувати сайт
Я використовую наступний файл robots.txt для сайту: Мета - дозволити googlebot та bingbot отримати доступ до сайту за винятком сторінки /bedven/bedrijf/*та заблокувати всі інші боти від сканування сайту. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* …

3
Як я можу використовувати robots.txt лише для заборони субдомена?
Моя база коду поділяється між кількома середовищами (live, staging, dev) та піддоменами ( staging.example, dev.exampleі т. Д.), І лише два можна дозволити сканувати (тобто. www.exampleІ example). Зазвичай я можу змінювати /robots.txtта додавати Disallow: /, але через спільну базу коду я не можу змінювати, /robots.txtне впливаючи на всі (під) домени. Будь-які …

6
Як правильно (не) дозволити бота archive.org? Чи змінилися речі, якщо так, коли?
У мене є веб-сайт, який я, як правило, не хочу індексувати пошуковими системами, але хочу зберегти його на вічність на archive.org. Тож моє robots.txtпочинається з цього: User-agent: * Disallow: / Сьогодні, як повідомляє archive.org, я повинен додати наступне у своєму, robots.txtщоб дозволити їх ботам: User-agent: ia_archiver Disallow: Але я вже …

10
Потрібно зупинити ботів від вбивства мого веб-сервера
У мене виникають проблеми з ботом EXTREME на деяких моїх веб-сайтах в моєму хостинг-акаунті. Боти використовують понад 98% моїх ресурсів процесора та 99% моєї пропускної здатності для всього мого облікового запису хостингу. Ці боти генерують понад 1 ГБ трафіку на годину для моїх сайтів. Реальний людський трафік для всіх цих …

1
Чи слід блокувати сторінки архіву Wordpress з пошукових систем?
Я використовую WordPress та /sample-post/URL-адреси для своїх публікацій та /yyyy/mm/архівів. Google повністю індексував сайт. Оскільки в архівах наразі відображаються повні публікації, я подумав, що я не повинен дозволити Google індексувати сторінки архіву, оскільки вони містять повні публікації, і це буде дублювати вміст. Таким чином, мій robots.txt містить: Disallow: /2009/ Disallow: …

4
Роботи, відхилені доменом, все ще перелічені в результатах пошуку
Таким чином, на всіх наших веб-сайтах, які не мають пошуку, ми застосували файл robots.txt (у розділі Як виключити веб-сайт із результатів пошуку в режимі реального часу Google? Або будь-який інший подібний питання). Однак якщо пошукові терміни є досить конкретними, сам домен можна знайти за результатами. Приклад цього можна знайти тут …
9 seo  robots.txt 
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.