Як налаштувати robots.txt, щоб дозволити все?


116

My robots.txtin Google Webmaster Tools показує такі значення:

User-agent: *
Allow: /

Що це означає? У мене недостатньо знань про це, тому шукаю вашої допомоги. Я хочу дозволити всім роботам сканувати мій веб-сайт, це правильна конфігурація?


Дозволити не зрозуміли всі веб-сканери, замість цього використовуйте disavow: (тобто без URL-адреси після:). Це безпечніше (див .: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Відповіді:


153

Цей файл дозволить усім сканерам отримати доступ

User-agent: *
Allow: /

Це в основному дозволяє всім агентам користувача (*) для всіх частин сайту (the /).


11
Правильно, якщо вам не потрібно заперечувати дозвольну частину. Немає "дозволити", тому зробіть так: "User-agent: * Disallow:" як вони показують тут: robotstxt.org/robotstxt.html
vsdev

Є дозвольна частина. Перевірте офіційні розробники
Google.google.com/search/reference/robots_txt#allow

60

Якщо ви хочете дозволити кожному боту сканувати все, це найкращий спосіб вказати це у своєму robots.txt:

User-agent: *
Disallow:

Зауважте, що Disallowполе має порожнє значення, що означає відповідно до специфікації :

Будь-яке порожнє значення означає, що всі URL-адреси можна отримати.


Ваш спосіб (з Allow: /замість нього Disallow:) теж працює, але Allowне є частиною оригінальної специфікації robots.txt , тому його підтримують не всі боти (хоча багато популярних підтримують його, хоча, як Googlebot ). Однак, нерозпізнані поля потрібно ігнорувати, а для ботів, які не розпізнають Allow, результат у будь-якому випадку був би однаковим: якщо сканувати нічого (заборонено Disallow), заборонено сканувати все.
Однак формально (за оригінальною специфікацією) це недійсний запис, оскільки потрібно принаймні одне Disallowполе:

У записі має бути принаймні одне поле Disallow.


17

Я розумію, що це досить старе питання і на нього є досить непогані відповіді. Але ось два мої центи заради повноти.

Відповідно до офіційної документації , існує чотири способи, яким ви можете дозволити роботам повний доступ до вашого сайту.

Чистота:

Укажіть глобальний відповідник із сегментом заборони, як згадує @unor. Тож ваш /robots.txtзовнішній вигляд такий.

User-agent: *
Disallow:

Злом:

Створіть /robots.txtфайл без вмісту в ньому. Що за замовчуванням дозволить усім для всіх типів Bots.

Мені все одно:

Не створюйте /robots.txtвзагалі. Що має дати такі самі результати, як і два.

Потворне:

З документації на роботів для метатегів ви можете використовувати наступний метатег на всіх своїх сторінках вашого сайту, щоб Botsзнати, що ці сторінки не повинні індексуватися.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Для того, щоб це було застосовано до всього вашого сайту, вам доведеться додати цей метатег для всіх своїх сторінок. І цей тег повинен суворо розміщуватися під вашим HEADтегом сторінки. Більше про цей метатег тут .


Немає robots.txt і Wordpress - це поганий комбо, оскільки WordPress створює віртуальний robots.txt. Якщо ви не задоволені тим, що створює WordPress.
Джеспер

8

Це означає, що ви дозволяєте кожному ( *) користувальницькому агенту / сканеру отримати доступ до кореня ( /) вашого сайту. Ти все гаразд.


5
відповідно до robotstxt.org/robotstxt.html немає поля "Дозволити", тож я з обережністю використовую це. Вікіпедія згадує «Деякі великі Шукач підтримують роздільну директиву , яка може протидіяти наступну директиву Disallow.»: En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
Mackaaij
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.