Чи можемо ми використовувати регекс у файлі robots.txt для блокування URL-адрес?

У мене є кілька динамічно створених URL-адрес.

Чи можу я використовувати регекс для блокування цих URL-адрес у файлі robots.txt?

robots.txt regular-expression

— Sudheera Njs
джерело

Також варто встановити метатеги роботів на сторінки, які ви не хочете сканувати / індексувати.

— Ендрю Лотт

@AndrewLott У моєму випадку я маю більше 500 сторінок, тому я подумав використовувати регекс у robots.txt ..

— Sudheera Njs

Тоді правило в коді вашого сайту, ймовірно, корисніше.

— Ендрю Лотт

Регулярні вирази не дійсні в robots.txt, але Google, Bing та деякі інші боти розпізнають відповідність шаблону.

Скажіть, якщо ви хочете заблокувати всі URL-адреси, які мають exampleбудь-яку адресу в URL-адресі, ви можете використовувати запис підкреслення *

User-agent: *
Disallow: /*example

Ви також можете скористатися знаком долара $, щоб вказати, що URL-адреси повинні закінчуватися таким чином. Тож якщо ви хотіли заблокувати всі URL-адреси, які закінчуються example, але не URL-адреси, які були exampleдесь у URL-адресі, ви можете використовувати:

User-agent: *
Disallow: /*example$

Більш поглиблена інформацію для Google можна знайти тут: robots.txt приведено специфікацію , Bing тут: Як створити файл Robots.txt і є інтерактивний путівник по Moz тут

— Макс
джерело

Ідеально, * працює чудово, перевірено в інструменті веб-майстра .. Дякую Макс ... :)

— Sudheera Njs

Я б застеріг від використання занадто фантазійних директив у вашому файлі robots.txt; згодом це дуже, дуже важко налагодити. Намагайтеся зберігати речі максимально просто. Також пам’ятайте, що robots.txt враховує регістри, тому вам може знадобитися додати альтернативні версії директив залежно від вашого сайту.

— Джон Мюллер

Було б добре, якби підтримувався регулярний

— гекс