Запобігайте показу веб-сайтів XML у результатах пошуку Google


23

Як запобігти появі моїх файлів мапи XML у результатах пошуку Google, таких як результат site:пошуку:

мапа сайту в результатах пошуку

Я не розумію, чому Google вирішив би почати показувати файли мапи в результатах пошуку. Ці файли не призначені для споживання людиною.

Google повинен мати можливість сканувати його, щоб мати можливість його обробляти, тому я не можу заборонити це в robots.txt . Я просто не хочу, щоб вони після їх обробки вносили його в результати пошуку.


1
Ага. Цікаво. Єдина думка, про яку я маю, - якщо у вас є посилання на нього на вашому сайті, або воно з’являється у вашому файлі мапи сайту. Також я не впевнений, якщо ви посилаєтесь на нього у вашому файлі robots.txt, якщо це може бути фактором. Я б не думав так, просто щось розглянути. Я постачаю свою мапу сайту лише через Google WMT, і не бачив цієї проблеми, принаймні, ще не. Я можу зрозуміти, що ви не хочете публікувати вашу мапу сайту. Я не хочу, щоб міна публічна. Занадто багато хакерів / скреперів там.
closetnoc

3
На цьому конкретному веб-сайті я вказав /sitemap.xmlу robots.txt, а потім посилання на інший набір інших мап сайтів, таких як /sitemap-123.xmlі /sitemap-124.xml. Я щодня регенерую карти сайтів, і цифри змінюються щодня. Той, що індексується, є досить старим. Я не посилаюся на нього ніде на своєму сайті, але можливо, що якийсь інший сайт десь має посилання на нього.
Стівен Остерміллер

1
Якщо він не використовується, переконайтесь, що його видалено, а потім виключіть його у файлі robots.txt, і він досить швидко випаде з SERP. Як не дивно, видалення URL-адреси в Google WMT займає назавжди (для мене місяці), а robots.txt досить швидко.
closetnoc

1
Ви надіслали файл sitemap XML до свого облікового запису GWMT?
Олег

3
Файл Sitemap існував до сьогодні. Я видалив його, і тепер він переспрямовує на /sitemap.xml припущення, що зараз ця конкретна карта сайту випаде з індексу. Я хотів би не допустити, щоб Google і надалі їх показував пошуковим користувачам.
Стівен Остерміллер

Відповіді:


18

Google індексує карти XML (як і будь-який XML-файл). Якщо Google знає URL-адресу і вона повертає дійсну відповідь, тоді вона прийме правила включення Google і може отримати індексацію. Особисто я подаю лише мапу сайту через GWT і включаю Sitemap:посилання в robots.txt, і цього, безумовно, достатньо, щоб отримати його в індексі.

Рекомендований спосіб запобігання індексації цих файлів Google - включення X-Robots-Tagзаголовка відповіді HTTP під час подання мапи сайту XML. Наприклад:

X-Robots-Tag: noindex

Так само, як включати тег META-роботів у файли HTML, X-Robots-Tagзаголовок може використовуватися для будь-якого типу файлів.

Довідково: Цей документ (з листопада 2008 року!), Схоже, цитує нашого власного Джона Мюллера (Google) щодо використання X-Robots-Tagвідповіді під час роботи з картами XML.
Так, Google індексує та класифікує ваш файл Sitemap XML

Для отримання додаткової інформації дивіться посібник для розробників Google:
метатег Robots та специфікації заголовка HTTP X-Robots-Tag


Де мені написати X-Robots-Tag: noindexкод заголовка? Всередині sitemap.xmlабо robots.txt?
xameeramir

1
@student Це заголовок відповіді HTTP, тому його потрібно встановити перед подачею цих файлів (як частина заголовка відповіді HTTP) - його не можна встановити "всередині". Залежно від того, як ви обслуговуєте ці файли, ви можете встановити це у коді на стороні сервера (наприклад, у PHP header('X-Robots-Tag: noindex',true)) або, якщо ви використовуєте Apache, то у вашому .htaccess-файлі чи на сервері конфігурації. Див. , Наприклад , відповідь Стівена . Також див. Посібник для розробників Google, пов’язаний із вище.
MrWhite

8

Відповідь MrWhite про використання X-Robots-Tag представляється правильним способом цього зробити.

Ось код, який можна використовувати в файлах конфігурації .htaccess або Apache . (Довідка: WebmasterWorld - Мапи сайту, що відображаються в SERP - Як запобігти цьому? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

Під nginx конфігурація була б такою. (Довідка: приклади Yoast X-Robots-Tag )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}

2

Чому це важливо?

Якщо ви дійсно можете знайти свою мапу сайту в SERP, то у вас є більші проблеми.

Я б більше зосередився на тому, щоб натомість сторінки отримати корисний вміст. Таким чином, вам буде дуже важко, навіть якщо ви знайдете мапу сайту. Не те, щоб ти все одно переймався.

PS

Практично кожен тримає мапи сайту в тому самому місці. Тож якщо хтось захотів знайти там, де ви його зберігаєте, він буде :)


4
Я використовую Google для пошуку на сайті, і я натрапив на мапу сайту, коли його використовую. Для моїх користувачів було б дуже заплутано, якби вони натискали на нього.
Стівен Остерміллер

Як ви думаєте, скільки користувачів користуються Google для пошуку на сайті?
dasickle

3
Усі користувачі, які вводять пошукові терміни, входять у вікно пошуку вгорі моїх сторінок.
Стівен Остерміллер

В такому разі. Чи планували ви використовувати щось на зразок swiftype.com для пошуку свого сайту? Є вершина інших, якими ви можете скористатися. Ви можете повторно замовляти, видаляти та додавати результати. Ви також отримуєте чудову статистику та інше
dasickle

-6

помістіть у robots.txt наступне

User-agent: *
Disallow: /sitemap.xml

натомість надсилайте свою мапу сайту за допомогою інструментів Google для веб-майстрів.


1
Чи можете ви уточнити свою логіку - ваше перше речення, здається, суперечить останньому?
MrWhite

5
Чи все ще Google сканує мапу сайту, заблоковану в robots.txt? Чи є у вас посилання на підтвердження твердження?
Стівен Остерміллер

4
Якщо ви забороните файл sitemap.xml, я впевнений, що він більше не буде сканувати. Не те, що ви хотіли б статися!
Макс

2
Google не сканує жоден документ із забороненим файлом robots.txt. Як правило, так чи інакше ... карти сайтів включені.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.