Чи можемо ми використовувати регекс у файлі robots.txt для блокування URL-адрес?


23

У мене є кілька динамічно створених URL-адрес.

Чи можу я використовувати регекс для блокування цих URL-адрес у файлі robots.txt?


Також варто встановити метатеги роботів на сторінки, які ви не хочете сканувати / індексувати.
Ендрю Лотт

@AndrewLott У моєму випадку я маю більше 500 сторінок, тому я подумав використовувати регекс у robots.txt ..
Sudheera Njs

Тоді правило в коді вашого сайту, ймовірно, корисніше.
Ендрю Лотт

Відповіді:


27

Регулярні вирази не дійсні в robots.txt, але Google, Bing та деякі інші боти розпізнають відповідність шаблону.

Скажіть, якщо ви хочете заблокувати всі URL-адреси, які мають exampleбудь-яку адресу в URL-адресі, ви можете використовувати запис підкреслення *

User-agent: *
Disallow: /*example

Ви також можете скористатися знаком долара $, щоб вказати, що URL-адреси повинні закінчуватися таким чином. Тож якщо ви хотіли заблокувати всі URL-адреси, які закінчуються example, але не URL-адреси, які були exampleдесь у URL-адресі, ви можете використовувати:

User-agent: *
Disallow: /*example$

Більш поглиблена інформацію для Google можна знайти тут: robots.txt приведено специфікацію , Bing тут: Як створити файл Robots.txt і є інтерактивний путівник по Moz тут


Ідеально, * працює чудово, перевірено в інструменті веб-майстра .. Дякую Макс ... :)
Sudheera Njs

Я б застеріг від використання занадто фантазійних директив у вашому файлі robots.txt; згодом це дуже, дуже важко налагодити. Намагайтеся зберігати речі максимально просто. Також пам’ятайте, що robots.txt враховує регістри, тому вам може знадобитися додати альтернативні версії директив залежно від вашого сайту.
Джон Мюллер

Було б добре, якби підтримувався регулярний
гекс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.