У мене є сайт, який з регуляторних причин може не індексуватися або шукатися автоматично. Це означає, що нам потрібно тримати подалі всіх роботів і не дозволяти їм розкручувати сайт.
Очевидно, у нас був файл robots.txt, який від самого початку відключає все. Однак, спостерігати за файлом robots.txt - це лише те, що робите роботи. Нещодавно у нас виникли проблеми з недоброзичливими роботами. Я налаштував Apache заборонити декілька користувачів-агентів, але це досить просто обійти.
Отже, питання полягає в тому, чи є якийсь спосіб налаштувати Apache (можливо, встановивши якийсь модуль?) Для виявлення поведінки, що нагадує робота, та відповіді? Будь-які інші ідеї?
На даний момент все, що я можу зробити, це заборона IP-адрес, заснованих на ручному огляді журналів, і це просто не є життєздатною довгостроковою стратегією.