Сайт був зламаний, потрібно видалити всі URL-адреси, починаючи з + від Google, використовувати robots.txt?

15

Скажіть, будь ласка, як мені заблокувати такі URL-адреси robots.txtдля Googlebots, щоб припинити індексувати?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Мій веб-сайт був зламаний, який зараз відновлюється, але хакер проіндексував 5000 URL-адрес у Google, і тепер я отримую помилку 404 у випадково генерованих посиланнях, перш за все, починаючи з /+подібної вище посилання.

Мені було цікаво, чи існує швидкий спосіб, крім того, як видалити ці URL-адреси вручну з Інструментів Google для веб-майстрів?

Чи можемо ми заблокувати це robots.txtURL-адресами, починаючи зі +знака?

google-search robots.txt url-removal

— unor
джерело

2

Немає нічого особливого +(плюс) у URL-шляху, це просто символ, як і будь-який інший.

— MrWhite

Ви можете Apache переадресувати (в .htaccess) на файл або каталог, який robots.txt забороняє роботам від доступу

— Mawg каже відновити Моніку

@Mawg Який сенс робити це?

— MrWhite

Щоб утримати добре поводилися роботів?

— Мауг каже, що повернемо Моніку

2

Незалежно від проблеми з URL-адресами, ви можете прочитати Як мені працювати з компрометованим сервером?

— Йонас Шефер

30

Мій веб-сайт був зламаний, який зараз відновлений, але хакер проіндексував 5000 URL-адрес у Google, і тепер я отримую помилку 404

404, мабуть, краще блокувати, robots.txtякщо ви хочете, щоб ці URL-адреси випали з пошукових систем (наприклад, Google). Якщо ви блокуєте сканування, URL-адреса все ще може залишатися індексованою. (Зауважте, що в robots.txtпершу чергу блокує сканування , а не індексацію .)

Якщо ви хочете "пришвидшити" деіндексацію цих URL-адрес, ви, можливо, можете подати "410 пропало" замість звичайного "404 не знайдено". Ви можете зробити щось подібне з mod_rewrite (Apache) у вашому кореневому .htaccessфайлі:

RewriteEngine On
RewriteRule ^\+ - [G]

— Містер Білий
джерело

14

Я збираюся відповісти на 2-е запитання.

Мені було цікаво, чи існує швидкий спосіб, крім того, щоб видалити ці URL-адреси вручну з інструментів Google для веб-майстрів?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google прямо заявляє, що видалення через консоль пошуку Google (нова назва інструментів для веб-майстрів) є найшвидшим.

Якщо хакер створив абсолютно нові, видимі користувачеві URL-адреси, ці сторінки можна швидше видалити з результатів пошуку Google, скориставшись функцією Видалити URL-адреси на консолі пошуку. Це абсолютно необов'язковий крок. Якщо ви просто видалите сторінки, а потім налаштуєте ваш сервер на повернення коду статусу 404, сторінки, природно, з часом випадуть з індексу Google.

Але вони також розуміють, що це неможливо для деяких випадків:

Рішення про використання видалення URL-адреси, ймовірно, залежатиме від кількості нових створених небажаних сторінок (занадто багато сторінок може бути громіздким, щоб їх можна було включити до Видалити URL-адреси), а також від потенційного збитку, який ці сторінки можуть заподіяти користувачам. Щоб сторінки, подані за допомогою Видалення URL-адрес, не з’являлися в результатах пошуку, переконайтеся, що вони також налаштовані для повернення 404 файлу не знайдено відповіді на небажані / видалені URL-адреси.

Отже, хоча ви можете заблокувати ці сторінки в robots.txt - ви не вживаєте жодного з коригувальних кроків, як пояснив google.

— пастапотте
джерело

4

User-Agent: *  
Disallow: /+

слід робити те, що ти хочеш. Він скаже роботові не запитувати всі URL-адреси, починаючи з а +.

— Свен
джерело

2

Якщо ви дійсно хочете використовувати robots.txt, це буде простою відповіддю на ваше запитання. Також я включив посилання на те, де ви можете прочитати технічні характеристики на robots.txt.

User-agent: *
Disallow: /+

Читайте про специфікації robots.txt

Але інша альтернатива може бути.

— Давидбл
джерело

2

Немає потреби *(зірочка) в кінці URL-шляху. Його слід видалити для найбільшої сумісності з павуком. robots.txtвже відповідає збігу префіксів, так /+*само як /+для ботів, які підтримують подстановочні символи, а для ботів, які не підтримують подстановочні символи, вони /+*взагалі не збігаються.

— MrWhite

Ви маєте рацію, я щойно написав це, грунтуючись на його запитанні про Googlebot. Я відредагував це, щоб відобразити кращу сумісність проти кількох ботів.

— davidbl