Інструменти Google для веб-майстрів повідомляють мені, що роботи блокують доступ до карти сайту


11

Це мій robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Але Google Webmaster Tools повідомляє мені, що роботи блокують доступ до карти сайта:

Під час спроби отримати доступ до вашої Sitemap ми виявили помилку. Будь ласка, переконайтеся, що ваш файл Sitemap відповідає нашим інструкціям та отримати доступ до нього у вказаному вами місці, а потім повторно надіслати: URL-адреса обмежена robots.txt .

Я читав, що Google Webmaster Tools кешує robots.txt , але файл було оновлено більше 36 годин тому.

Оновлення:

Якщо натиснути мапу сайту TEST, це не змусить Google отримати новий файл Sitemap. Це вдалося зробити лише на карті SUBMIT. (До речі, я не бачу сенсу в "тестовій мапі сайту", якщо ви не вставите туди свою поточну мапу сайту - вона не отримає нову копію мапи сайту з адреси, яку вона просить вас ввести перед тестом - але це питання на інший день.)

Після подання (замість тестування) нової карти сайту ситуація змінилася. Тепер я отримую "URL-адресу заблоковано robots.txt . Карта сайту містить URL-адреси, які блокуються robots.txt ." для 44 URL-адрес. У мапі сайту є точно 44 URL-адреси. Це означає, що Google використовує новий файл Sitemap, але він все ще працює за старим правилом роботів (який утримує все поза межами) Жодна із 44 URL-адрес не міститься /wp-admin/або /wp-includes/(що в будь-якому разі неможливо, оскільки robots.txt створений на муха тим самим плагіном, який створює мапу сайту).

Оновлення 2:

Погіршується: на сторінці результатів пошуку Google опис домашньої сторінки звучить так: "Опис цього результату недоступний через robots.txt цього веб-сайту - дізнайтеся більше". На всіх інших сторінках є чіткі описи. Не існує robots.txt АБО роботів мета-блокування індексації домашньої сторінки.

Я застряг.


У Інструментах для веб-майстрів Google> Здоров'я> Заблоковані URL-адреси ви можете негайно перевірити, чи ваш robots.txt заблокував вашу URL-адресу мапи сайту (або будь-яку іншу URL-адресу, яку ви хочете перевірити). Схоже, що ваш поточний robots.txt повинен заблокувати вашу мапу сайту, але ви кажете, що це оновлено. Чи блокувала це попередня версія файлу robots.txt?
MrWhite

1
Так, попередня версія блокувала. Я думаю, Google просто не оновлював кеш-пам'ять ...
Gaia

У мене саме та ж проблема. Мій кеш robots.txt працює з 23 квітня цього року, сьогодні 25 квітня, а кеш ще старий. У мене немає часу на очікування, мені потрібно googleboot, щоб індексувати свій сайт зараз (це бізнес-сайт), але, здається, я нічого не можу зробити, просто чекати, не знаючи, як довго. Це так неприємно!

Відповіді:


8

Здавалося б, Google, мабуть, ще не оновив кеш файлу robots.txt. Ваш поточний файл robots.txt (вище) виглядає так, ніби він блокує вашу URL-адресу мапи.

Я думаю, що Google просто не оновив кеш-пам'ять.

Не потрібно гадати. В Інструментах для веб-майстрів Google (GWT) у розділі "Здоров'я"> "Заблоковані URL-адреси" ви можете побачити, коли ваш файл robots.txt востаннє завантажений і чи був він успішним. Він також повідомить, скільки URL-адрес було заблоковано файлом robots.txt.

посилання robots.txt в Інструментах для веб-майстрів Google

Як було сказано в моїх коментарях, GWT має інструмент перевірки robots.txt ("Здоров'я"> "Заблоковані URL-адреси"). Таким чином, ви можете негайно протестувати зміни у вашому robots.txt (не змінюючи фактичний файл). Вкажіть файл robots.txt у верхній текстовій області та URL-адреси, які ви хочете перевірити в нижній текстовій області, і він підкаже, чи буде вони заблоковані чи ні.


Кешування robots.txt

Запит robots.txt, як правило, зберігається до одного дня, але він може зберігатись у кешованому режимі довше, якщо неможливо оновити кешовану версію (наприклад, через тайм-аути або помилки 5xx). Кешовану відповідь можуть надавати різні сканери. Google може збільшити або зменшити термін служби кешу на основі заголовків HTTP максимального віку кешу.

Джерело: Розробники Google - Технічні характеристики Robots.txt


Чи може це все-таки бути випадком через 24 години ??
Гая

Яка дата "Завантажена", як повідомляється в Інструментах для веб-майстрів? Це скаже вам, чи все ж таки так . Як показано на наведеному вище скріншоті (з одного з моїх сайтів), файл robots.txt востаннє завантажений "3 вересня 2012 року" (3 дні тому). Але в моєму випадку немає потреби завантажувати файл ще раз, оскільки нічого не змінилося (заголовок Last-Modified повинен бути однаковим). Як часто Google отримує файл robots.txt, буде залежати від заголовків Expires і Last-Modified, встановлених вашим сервером.
MrWhite

Завантажено 22 години тому, а термін дії заголовка закінчується +24 години. Я спробую ще раз через пару годин, це має бути вирішено!
Гая

Це не зробили. Google використовує новий файл Sitemap, але він все ще працює за старим правилом robots.txt (який утримує все поза межами)
Gaia

"Це не зробило" - чи Google ще не оновлював кеш вашого файлу robots.txt? Хоча ви кажете, що ви змінили файл 36+ годин тому, і його було зареєстровано як завантажений 22 години тому ?! Що ви бачите, натиснувши на посилання на файл robots.txt?
MrWhite

2

У мене була така ж проблема з моїм сайтом, оскільки під час встановлення WP я вибираю не слідкувати за допомогою пошукової системи чи тієї ж опції.

Щоб вирішити цю проблему:

  1. перейдіть до Інструментів для веб-майстрів, www.example.com/robots.txtскануйте на видалення URL-адреси та надішліть свою цю опцію -> видалити з кешу для зміни вмісту або ...
  2. зачекайте хв
  3. повторно надішліть свою URL-адресу мапи сайту
  4. закінчити
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.