На основі мого дослідження цієї теми я виявив, що не існує 100% гарантованого способу запобігання індексації та кешування даних, але ви можете наблизитись (припускаючи, що ви хочете мати справу зі збільшенням трафіку бота). Ось як я інтерпретував інформацію.
Можна подумати, що файл robots.txt використовується для визначення інформації про роботів по всьому сайту, а метатеги використовуються для детальної інформації про сторінку. Я думаю, що дух за двома - це саме це, але це не так на практиці.
Не створюйте файл robots.txt
Це працює з усіма основними постачальниками пошуку , щоб запобігти зміст з'являтися на SERP, але ніяк НЕ запобігти індексацію. Це також не дозволяє ботам сканувати ваші сторінки, тому будь-які метатеги роботів (див. Нижче) також ігноруються. Через це ви не можете використовувати 2 разом, і тому, якщо ви хочете запобігти індексуванню, ви не повинні використовувати файл robots.txt.
Побічна примітка: Google підтримує використання Noindex: /
robots.txt, однак він не є документальним (хто знає, коли він зламається) і невідомо, чи працює це для когось іншого.
Використовуйте заголовки HTTP або HTML META теги, щоб уникнути всього
На відміну від файлу robots.txt, метатег robots (і заголовка HTTP) широко підтримується і, що дивно, має багато функцій. Він призначений для встановлення на кожній сторінці, але нещодавнє прийняття X-Robots-Tag
заголовка полегшує налаштування сайту. Єдиний недолік цього методу - боти сканувати ваш сайт. Це можна обмежити, використовуючи nofollow
, але не всі боти справді поважають nofollow
.
Я знайшов у цій застарілій публікації блогу багато інформації . Його оригінальний випуск був 2007 року, але, оскільки багато інформації про нього є новішими функціями з того часу, він, як видається, оновлюється регулярно.
Підсумовуючи, ви повинні надіслати HTTP-заголовок X-Robots-Tag: noindex,nofollow,noodp,noydir
. Ось розбивка, чому:
nofollow
повинно обмежити кількість сторінок, що переглядаються на вашому сайті, не дозволяючи знизити трафік бота. * noindex
повідомляє двигунам не індексувати сторінку.
- Тепер ви можете припустити, що цього
noindex
може бути достатньо. Однак я виявив, що навіть якщо ви скажете, що noindex
ваш сайт може бути індексований через інші сайти, що посилаються на нього. Найкращий спосіб запобігти поширеним посиланням на сайт від Y! Directory ( noydir
) та Open Directory ( noodp
).
- Використання заголовка HTTP також застосовує дані роботів до файлів, зображень та інших файлів, що не містять HTML! ТАК!
Це спрацює у 99% випадків. Майте на увазі, що все- таки можливо індексувати деякі провайдери в деяких випадках. Google заявляє, що повністю поважає noindex
, але у мене є підозри.
Нарешті, якщо ви індексуєтесь або вже були проіндексовані, єдиний спосіб деіндексувати свою інформацію - це дотримуватися різних засобів від кожного постачальника, щоб вимагати видалення сайту / URL-адреси. Очевидно, це означає, що ви, мабуть, захочете відстежувати сайти / сторінки, використовуючи щось подібне до Google Alerts (спасибі @Joe).