Чи кешує Google robots.txt?


17

Тиждень тому я додав файл robots.txt на один із своїх сайтів, що повинно було завадити Googlebot намагатися отримати певні URL-адреси. Однак у ці вихідні я можу бачити, як Googlebot завантажує ці точні URL-адреси.

Чи кешує Google robots.txt і, якщо так, чи слід?

Відповіді:


13

Настійно рекомендую зареєструвати свій сайт за допомогою консолі пошуку Google (раніше Інструменти Google для веб-майстрів) . У налаштуваннях сайту є розділ доступу до сканера, який підкаже, коли останній раз завантажували ваш robots.txt . Інструмент також пропонує багато детальних відомостей про те, як сканери бачать ваш сайт, що заблоковано чи не працює та де ви з’являєтесь у запитах у Google.

З того, що я можу сказати, Google часто завантажує robots.txt . Сайт консолі пошуку Google також дозволить вам спеціально видалити URL-адреси з індексу, так що ви можете видалити ті, які зараз блокуєте.


2
Я перевірив інструменти для веб-майстрів: файл robots.txt є дійсним, і він був нещодавно отриманий за 17 годин до останнього відвідування googlebot цих сторінок. Я підозрюю, що мова йде про розповсюдження через мережу google - зрештою всі сервери googlebot наздоганяють інструкції robots.txt.
Quog

Бот Google не використовує robots.txt так часто, як про оновлення, повідомляється на Пошуковій консолі. Минуло чотири тижні, як я здійснив оновлення, і бот Google все ще використовує поганий robots.txt - і це знищує наш трафік та рейтинг.
Корпоративний Geek

3

Наполегливіше. Я змінився з robots.txt на мета noindex, nofollow. Для того, щоб зробити мета-роботою заблоковані адреси в robots.txt спочатку потрібно було розблокувати.

Я зробив це жорстоко, видаливши файл robots.txt взагалі (і відзначивши його в веб-майстрі google).

Процес видалення robots.txt, як показано в інструменті для веб-майстрів (кількість сторінок заблоковано), завершився 10 тижнів, з яких основну частину було видалено лише Google за останні 2 тижні.


Я схильний погоджуватися з вами. Ми помилилися і помилково оновили файл robots.txt. Google кеширував його, і він використовує його через чотири тижні після виправлення помилки та замінив її новим robots.txt. Я навіть вручну подав запит на оновлення в Інструментах Google для веб-майстрів і ... нічого. Це дуже погано, оскільки це призвело до втрати трафіку та рейтингу. :(
Корпоративний Geek

2

Так, Google, очевидно, буде кешувати robots.txt до певної міри - вона не завантажуватиме її кожен раз, коли хоче переглянути сторінку. Скільки часу це кешується, я не знаю. Однак якщо у вас довгий набір Expires заголовка, Googlebot може залишити його набагато довше, щоб перевірити файл.

Іншою проблемою може бути неправильно налаштований файл. В Інструментах для веб-майстрів, що пропонує данивович, є перевірка robots.txt . Він підкаже, які типи сторінок заблоковані, а які - добре.


Дивіться коментар до цієї відповіді webmasters.stackexchange.com/questions/2272/…
Quog

2
@Quog: Дивіться це нещодавнє відео: youtube.com/watch?v=I2giR-WKUfY Метт Коттс пропонує, що robots.txt завантажується або раз на день, або приблизно кожні 100 запитів.
НезадоволенняГота

2

У документації Google зазначено, що вони зазвичай кешуватимуть robots.txt протягом дня, але можуть використовувати його довше, якщо вони отримують помилки при спробі оновити його.

Запит robots.txt, як правило, зберігається до одного дня, але він може зберігатися в кешованому режимі довше в ситуаціях, коли оновлення кешованої версії неможливе (наприклад, через тайм-аути або помилки 5xx). Кешовану відповідь можуть надавати різні сканери. Google може збільшити або зменшити термін служби кешу на основі заголовків HTTP максимального віку кешу.


1

Так. Вони кажуть, що зазвичай оновлюють його раз на день, але деякі припустили, що вони також можуть перевірити його після певної кількості переглядів сторінки (100?), Тому більш зайняті сайти перевіряються частіше.

Дивіться /webmasters//a/29946 та відео, яке @DisgruntedGoat ділилося вище http://youtube.com/watch?v=I2giR-WKUfY .


1

З того, що я бачу в доступному користувачеві кеші, що вам потрібно зробити, це ввести URL-адресу файлу robots.txt у Пошуку Google, а потім натиснути зелену стрілку, що спадає, та натиснути «Кешування» (див. Зображення нижче) це дасть вам останню версію цієї сторінки з серверів Googles.

введіть тут опис зображення


-2

Ви можете подати запит на його видалення за допомогою інструмента видалення URL-адреси Google .


Це не дає відповіді на запитання.
MrWhite

чому б не відповісти?
KOZASHI SOUZA

Тому що питання стосується конкретно robots.txt, кешування та сканування URL-адрес. Одним із результатів цього може бути те, що URL-адреси не індексуються, але це не питання. (Інструмент для видалення URL-адреси Google - це лише виправлення "тимчасового". Є інші кроки, які потрібно зробити, щоб зробити його постійним.)
MrWhite
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.