Сайт був зламаний, потрібно видалити всі URL-адреси, починаючи з + від Google, використовувати robots.txt?


15

Скажіть, будь ласка, як мені заблокувати такі URL-адреси robots.txtдля Googlebots, щоб припинити індексувати?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Мій веб-сайт був зламаний, який зараз відновлюється, але хакер проіндексував 5000 URL-адрес у Google, і тепер я отримую помилку 404 у випадково генерованих посиланнях, перш за все, починаючи з /+подібної вище посилання.

Мені було цікаво, чи існує швидкий спосіб, крім того, як видалити ці URL-адреси вручну з Інструментів Google для веб-майстрів?

Чи можемо ми заблокувати це robots.txtURL-адресами, починаючи зі +знака?


2
Немає нічого особливого +(плюс) у URL-шляху, це просто символ, як і будь-який інший.
MrWhite

Ви можете Apache переадресувати (в .htaccess) на файл або каталог, який robots.txt забороняє роботам від доступу
Mawg каже відновити Моніку

@Mawg Який сенс робити це?
MrWhite

Щоб утримати добре поводилися роботів?
Мауг каже, що повернемо Моніку

2
Незалежно від проблеми з URL-адресами, ви можете прочитати Як мені працювати з компрометованим сервером?
Йонас Шефер

Відповіді:


30

Мій веб-сайт був зламаний, який зараз відновлений, але хакер проіндексував 5000 URL-адрес у Google, і тепер я отримую помилку 404

404, мабуть, краще блокувати, robots.txtякщо ви хочете, щоб ці URL-адреси випали з пошукових систем (наприклад, Google). Якщо ви блокуєте сканування, URL-адреса все ще може залишатися індексованою. (Зауважте, що в robots.txtпершу чергу блокує сканування , а не індексацію .)

Якщо ви хочете "пришвидшити" деіндексацію цих URL-адрес, ви, можливо, можете подати "410 пропало" замість звичайного "404 не знайдено". Ви можете зробити щось подібне з mod_rewrite (Apache) у вашому кореневому .htaccessфайлі:

RewriteEngine On
RewriteRule ^\+ - [G]

14

Я збираюся відповісти на 2-е запитання.

Мені було цікаво, чи існує швидкий спосіб, крім того, щоб видалити ці URL-адреси вручну з інструментів Google для веб-майстрів?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google прямо заявляє, що видалення через консоль пошуку Google (нова назва інструментів для веб-майстрів) є найшвидшим.

Якщо хакер створив абсолютно нові, видимі користувачеві URL-адреси, ці сторінки можна швидше видалити з результатів пошуку Google, скориставшись функцією Видалити URL-адреси на консолі пошуку. Це абсолютно необов'язковий крок. Якщо ви просто видалите сторінки, а потім налаштуєте ваш сервер на повернення коду статусу 404, сторінки, природно, з часом випадуть з індексу Google.

Але вони також розуміють, що це неможливо для деяких випадків:

Рішення про використання видалення URL-адреси, ймовірно, залежатиме від кількості нових створених небажаних сторінок (занадто багато сторінок може бути громіздким, щоб їх можна було включити до Видалити URL-адреси), а також від потенційного збитку, який ці сторінки можуть заподіяти користувачам. Щоб сторінки, подані за допомогою Видалення URL-адрес, не з’являлися в результатах пошуку, переконайтеся, що вони також налаштовані для повернення 404 файлу не знайдено відповіді на небажані / видалені URL-адреси.

Отже, хоча ви можете заблокувати ці сторінки в robots.txt - ви не вживаєте жодного з коригувальних кроків, як пояснив google.


4
User-Agent: *  
Disallow: /+

слід робити те, що ти хочеш. Він скаже роботові не запитувати всі URL-адреси, починаючи з а +.


2

Якщо ви дійсно хочете використовувати robots.txt, це буде простою відповіддю на ваше запитання. Також я включив посилання на те, де ви можете прочитати технічні характеристики на robots.txt.

User-agent: *
Disallow: /+

Читайте про специфікації robots.txt

Але інша альтернатива може бути.


2
Немає потреби *(зірочка) в кінці URL-шляху. Його слід видалити для найбільшої сумісності з павуком. robots.txtвже відповідає збігу префіксів, так /+*само як /+для ботів, які підтримують подстановочні символи, а для ботів, які не підтримують подстановочні символи, вони /+*взагалі не збігаються.
MrWhite

Ви маєте рацію, я щойно написав це, грунтуючись на його запитанні про Googlebot. Я відредагував це, щоб відобразити кращу сумісність проти кількох ботів.
davidbl
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.