Як видалити тисячі URL-адрес із кешу Google?


13

Google зберігав з мого веб-сайту 1000 тисяч PDF-файлів, які не повинні бути загальнодоступними. Я оновив заголовки, але потрібно видалити існуючий кеш-пам'ять швидкого перегляду.

Інструмент для веб-майстрів Google дозволяє мені видаляти їх по черзі - однак це, очевидно, не практично, враховуючи кількість файлів, які потрібно видалити.

Хтось знає, як я можу отримати пакетне видалення PDF-файлів із кешу Google? В ідеалі я хотів би видалити все, що відповідає "site: mysite.com * .pdf"


3
Швидкий пошук google вказує на те, що неможливо пакетне видалення за допомогою API google, вам доведеться спільно використовувати власний скрипт, який видаляє посилання по одному

Відповіді:


9

Здається, ви вже зрозуміли, як подати запит на видалення єдиної URL-адреси , що тут, очевидно, не викликає сумнівів. Другий крок цього процесу також дозволяє вам вимагати видалення цілого каталогу , якщо URL-адреси файлів передбачені саме таким чином. (Якщо у вас є тисячі PDF-файлів, я би сподівався, що вони принаймні дещо організовані.) Якщо ні, на жаль, ви майже не маєте варіантів.


2

Нещодавно у мене був злом, який додав кілька тисяч фальшивих сторінок на мій сайт.

Я подав виправлену мапу сайту до консолі пошуку Google (раніше її називали Інструменти для веб-майстрів) і перейшов усі посилання на 410, але в Google все ще більшість з них було індексовано.

Я використовував інструменти WebMaster Tools - масове видалення URL-адреси розширення Chrome для автоматичного подання URL-адрес для видалення. В основному це сценарій, який бере список URL-адрес, а потім подає їх вам, по одній. Щоб відправити їх усі, знадобляться години, але принаймні вам не доведеться робити це самостійно. Ось стаття про те, як ним користуватися .

Ви можете отримати список URL-адрес, які Google індексує, завантаживши дані безпосередньо з консолі пошуку. Перейдіть до статусу> Покриття індексу та виберіть дійсні результати, а потім прокрутіть вниз. Ви побачите, що Google проіндексував тону URL-адрес, яких немає у вашій мапі сайту. Ви можете завантажити перші 1000 результатів. Очевидно, існує круговий спосіб отримати їх усіх, не тільки першу тисячу, але це включає дзвінки API від excel. Я просто чекав кілька днів між кожною тисячею, коли вони повільно випадали з індексу.

Знімок обліку вказівника Google

Інший шлях полягає у тому, щоб плагін WP створив мапу сайту, а потім відфільтрував PDF-файли або все, на що ви орієнтуєтесь. Тут вам, мабуть, доведеться трохи скопіювати / вставити / видалити вручну. Щоб забезпечити безпеку, я повільно прокручував мій список близько 2700 спам-URL-адрес і видаляв законні URL-адреси. Це зайняло лише близько 20 хвилин.

Якщо ви не намагаєтесь назавжди зняти щось, наприклад спам, а замість цього намагаєтесь придушити преміум-ресурси, слід використовувати інші методи, щоб запобігти індексації цих ресурсів, наприклад, файл роботів. Але якщо виявиться, що Google не послухав або ви кинули кулю, принаймні тепер ви можете виправити проблему та вилучити їх з індексу лише за кілька днів.

За моєї конкретної обставини мені цікаво, чому в Google немає кнопки машини часу, ані відмінити чи скинути. Ідея полягає в тому, що я можу сказати, що Google був зламаний кілька днів тому, але ми його відремонтували, тому скасуйте останнє x число днів сканування та індексації. Але це було б занадто просто.


1

Якщо файли "не повинні бути загальнодоступними", вони повинні бути в загальнодоступному Інтернеті. Ви можете видалити файли зі списків Google (за допомогою robots.txt та інших методів), але якщо файли все-таки є, то їх все одно може завантажити.

Ви повинні тримати їх поза якоюсь автентифікацією. Наприклад, перемістіть файли із загальнодоступних веб-каталогів та подайте їх зі скрипту, який спочатку перевіряє, чи користувач дійсний.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.