Яких ботів та павуків потрібно заблокувати у robots.txt?


14

Щоб:

  1. Підвищити безпеку мого веб-сайту
  2. Зменшити вимоги до пропускної здатності
  3. Не допускати збирання електронної адреси

Відповіді:


17

Жоден бот, який збирає електронні листи або перевіряє ваш сайт на вразливості, не поважатиме ваш robots.txt. Насправді ці зловмисні боти дивляться на robots.txt, щоб краще відобразити ваш сайт. Якщо у вас є якийсь момент, Disallow:це буде використано для кращої атаки на ваш сайт. Хакер, який вручну переглядає ваш сайт, повинен витрачати додатковий час на вивчення файлів / каталогів, які ви намагаєтеся заборонити.


3
Цікавий момент. Цікаво, чи є сенс додавати підроблену сторінку до списку Disallow, єдиною метою якої є зловити таких ботів у акті, щоб вони могли бути автоматично заблоковані.
Стівен Судіт

5
@Steven Sudit - це не погана ідея. Це можна було б назвати медовим горщиком.
Грак

Так, саме так, хоча я думав більше про стандартний трюк компіляторів каталогів (телефонних книг тощо) щодо додавання невеликої кількості фальшивих записів, щоб виявити крадіжки оптом.
Стівен Судіт

Якщо ви також використовуєте цей медовий горщик як брезент, він також засмутить нелегальні індекси. Це насправді досить поширене для спамерів - залиште електронну адресу, що індексує медонос, що веде до сервера електронної пошти tarpit.
Марк Хендерсон

@Farseeker Я не бачу проблеми з покаранням тих, хто порушує правила. Хоча хитрість спамерів із поганими даними - цікавий поворот.
Грак

4

robots.txt не підвищить безпеку вашого веб-сайту та не запобіжить збору електронної адреси. robots.txt - це посібник для пошукових систем, щоб пропустити розділи вашого веб-сайту. Вони не індексуються і повинні використовуватися для будь-яких розділів, які ви не хочете відображати в загальнодоступних пошукових системах.

Однак це жодним чином не завадить завантажувати будь-який інший бот на весь ваш сайт, щоб підвищити безпеку або запобігти збору електронної пошти. Для підвищення безпеки вам потрібно додати автентифікацію та дозволити лише аутентифікованих користувачів за межами захищених розділів. Щоб запобігти збору електронної адреси, не розміщуйте електронні листи у простому тексті (або легко розшифрованому тексті) на веб-сайті.


1

robots.txt не допоможе вам у забезпеченні безпеки. Будь-який бот, який хоче зробити щось тінисте, все одно проігнорує це.


0

Файл robots.txt служить лише запитом, щоб боти і павуки залишали певні частини вмісту в спокої; він фактично не може перешкодити їх доступу. "Хороші" боти поважатимуть це, але "погані" (можливо, ті, які ви хочете заблокувати) ігнорують це та все одно продовжуватимуться.


-1

Замість robots.txt, можливо, вам доведеться використовувати коди CAPTCHA.


Коди CAPTCHA не мають нічого спільного з веб-сканерами (це адреса robots.txt).
user48838

Це було помилковим голосом. Вся справа в тому, що сканер може ігнорувати robots.txt, але коди CAPTCHA принаймні пригальмують його, якщо не заблокують його прямо. Дякую, що помилилися.
Стівен Судіт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.