Роботи, відхилені доменом, все ще перелічені в результатах пошуку

9

Таким чином, на всіх наших веб-сайтах, які не мають пошуку, ми застосували файл robots.txt (у розділі Як виключити веб-сайт із результатів пошуку в режимі реального часу Google? Або будь-який інший подібний питання).

Однак якщо пошукові терміни є досить конкретними, сам домен можна знайти за результатами. Приклад цього можна знайти тут . Як видно із посилання, сам домен можна знайти (вміст не кешовано, але домен вказаний). Крім того, для пошуку з site:hyundaidigitalmarketing.com3 результатами. Перевірка зворотних посилань надає також декілька, але я, очевидно, не можу їх запобігти (посилання дозволяється в контексті) або контролювати їх обробку (не можу сказати хосту додати nofollow, noindex).

Тепер я знаю, що це важкий крайній випадок, проте клієнти моїх компаній роблять саме це. Насправді наші домени досить хороші, тому навіть, здавалося б, довільні пошукові результати призводять до відповідних результатів. Тепер я мушу написати звіт про те, як / чому це відбувається.

Отже, я звертаюся до чудової мережі Stack Exchange, щоб допомогти мені зрозуміти, чого мені не вистачає, або зрозуміти, що відбувається. Посилання на статті про галузь надзвичайно корисні, але все, що ви можете дати, очевидно, чудово. Я маю намір запропонувати щедрості якнайкраще, щоб зробити це відповіддю, до якого слід звернутися в майбутньому.

Редагувати: Я відкрив щедро це питання, сподіваючись отримати ще кілька відповідей на нього. Нижче я також наводив результати власних досліджень.

seo robots.txt

— Кевін Пено
джерело

5

Мені доведеться шукати джерело цієї інформації, але, очевидно, robots.txt не обов'язково перешкоджатиме індексувати сторінку. Але заголовок HT-x-robots-тегів очевидно працює.

Якщо ви використовуєте Apache, ви можете блокувати сторінки масово, використовуючи цей рядок у файлі .htaccess:

Header set x-robots-tag: noindex

Спробуйте, і подивіться, що станеться.

Редагувати

(Знайдено джерело . Не те, кого я пам’ятаю, але воно працює).

— Джон Конде
джерело

Привіт, і дякую за відповідь. Чим це відрізняється від метатегів роботів, які вже реалізовані у виведенні html сайту, використаного як приклад вище? Наскільки я можу сказати, це просто служить заміною, тому вам не потрібно розміщувати його на кожній сторінці.

— Кевін Пено

@Kevin, вони повинні бути однаковими з точки зору ефективності. Це просто було б легше керувати, як ви сказали.

— Джон Конде

4

Я думаю, що Метт Кеттс говорив про це. Якщо моя пам’ять правильна, це стосувалося зв’язування. Ось більше: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=uk

Ви можете видалити їх за допомогою інструмента видалення Google.

— Джо
джерело

Ви можете побачити їх усіх за допомогою: site: gmpackageguide.com URL-адрес не так багато. Я припускаю, що вони були в індексі до того, як роботів було заборонено. Я б просто їх видалив.

— Джо

Надалі я б доручив людям із веб-дизайну завжди включати не індекс, ані слідування у головному розділі веб-сторінки. Я підозрюю, що CMS, яку ви використовуєте, може це зробити.

— Джо

@Joe - погоджуйтесь, але рекомендую, noindex, followщоб будь-який PageRank поширювався із зворотних посилань, які можуть виникати.

— Майк Хадсон

@Joe & @Mike, Дякую за інформацію Однак перейдіть на сайт: hyundaidigitalmarketing.com. Я сам запустив цей сайт рік тому. Він включає як файл robots.txt, так і метазаголовок. Однак, як ви можете побачити форму, яка здійснює пошук у google за допомогою site:hyundaidigitalmarketing.comабо за умовами hyundai digital marketing, сам домен і надалі відображатиметься як перший та найкращий результат. Мені потрібно запобігти цьому.

— Кевін Пено

Також пошук links:hyundaidigitalmarketing.comпоказує зворотні посилання. Я, очевидно, не можу запобігти або контролювати зворотні посилання форматування І вони можуть бути дійсними. Якщо посилання на сайт викликає це, мені потрібно зрозуміти, як / чому так, щоб я міг пояснити це своєму начальству. Сподіваюсь, це пояснює моє запитання трохи краще.

— Кевін Пено

3

На основі мого дослідження цієї теми я виявив, що не існує 100% гарантованого способу запобігання індексації та кешування даних, але ви можете наблизитись (припускаючи, що ви хочете мати справу зі збільшенням трафіку бота). Ось як я інтерпретував інформацію.

Можна подумати, що файл robots.txt використовується для визначення інформації про роботів по всьому сайту, а метатеги використовуються для детальної інформації про сторінку. Я думаю, що дух за двома - це саме це, але це не так на практиці.

Не створюйте файл robots.txt

Це працює з усіма основними постачальниками пошуку , щоб запобігти зміст з'являтися на SERP, але ніяк НЕ запобігти індексацію. Це також не дозволяє ботам сканувати ваші сторінки, тому будь-які метатеги роботів (див. Нижче) також ігноруються. Через це ви не можете використовувати 2 разом, і тому, якщо ви хочете запобігти індексуванню, ви не повинні використовувати файл robots.txt.

Побічна примітка: Google підтримує використання Noindex: /robots.txt, однак він не є документальним (хто знає, коли він зламається) і невідомо, чи працює це для когось іншого.

Використовуйте заголовки HTTP або HTML META теги, щоб уникнути всього

На відміну від файлу robots.txt, метатег robots (і заголовка HTTP) широко підтримується і, що дивно, має багато функцій. Він призначений для встановлення на кожній сторінці, але нещодавнє прийняття X-Robots-Tagзаголовка полегшує налаштування сайту. Єдиний недолік цього методу - боти сканувати ваш сайт. Це можна обмежити, використовуючи nofollow, але не всі боти справді поважають nofollow.

Я знайшов у цій застарілій публікації блогу багато інформації . Його оригінальний випуск був 2007 року, але, оскільки багато інформації про нього є новішими функціями з того часу, він, як видається, оновлюється регулярно.

Підсумовуючи, ви повинні надіслати HTTP-заголовок X-Robots-Tag: noindex,nofollow,noodp,noydir. Ось розбивка, чому:

nofollowповинно обмежити кількість сторінок, що переглядаються на вашому сайті, не дозволяючи знизити трафік бота. * noindexповідомляє двигунам не індексувати сторінку.
Тепер ви можете припустити, що цього noindexможе бути достатньо. Однак я виявив, що навіть якщо ви скажете, що noindexваш сайт може бути індексований через інші сайти, що посилаються на нього. Найкращий спосіб запобігти поширеним посиланням на сайт від Y! Directory ( noydir) та Open Directory ( noodp).
Використання заголовка HTTP також застосовує дані роботів до файлів, зображень та інших файлів, що не містять HTML! ТАК!

Це спрацює у 99% випадків. Майте на увазі, що все- таки можливо індексувати деякі провайдери в деяких випадках. Google заявляє, що повністю поважає noindex, але у мене є підозри.

Нарешті, якщо ви індексуєтесь або вже були проіндексовані, єдиний спосіб деіндексувати свою інформацію - це дотримуватися різних засобів від кожного постачальника, щоб вимагати видалення сайту / URL-адреси. Очевидно, це означає, що ви, мабуть, захочете відстежувати сайти / сторінки, використовуючи щось подібне до Google Alerts (спасибі @Joe).

— Кевін Пено
джерело

3

Я думаю, що вашою основною проблемою є зворотні посилання на сайт, оскільки вони дають пошуковим системам вхід на сайт і дають їм знати про це. Тож хоча вони не відображатимуть опис сайту, вони можуть вказати URL-адресу, якщо вони вважають, що це найкраще відповідає результату.

Читайте цю статтю, пов’язану з тією, яку @joe опублікував: Метт Кеттс, який тримає Google

Ключовим бітом є:

Для цього є досить вагома причина: коли в 2000 році я почав працювати в Google, на декількох корисних веб-сайтах (eBay, New York Times, California DMV) були файли robots.txt, які забороняли будь-яку сторінку отримувати. Тепер я запитую вас, що ми повинні повернути як результат пошуку, коли хтось робить запит [california dmv]? Ми виглядали б дуже сумно, якби ми не повернули www.dmv.ca.gov як перший результат. Але пам’ятайте: нам не дозволяли отримувати сторінки з www.dmv.ca.gov у той момент. Рішення полягало в тому, щоб показати нерозмитнене посилання, коли ми мали високий рівень впевненості, що це правильне посилання. Іноді ми могли навіть витягнути опис з проекту Open Directory, щоб ми могли дати багато інформації користувачам навіть без отримання сторінки.

Проведене вами дослідження також добре охоплює речі, і відповіді @john та @joe є релевантними. Я включив посилання нижче, яке дає додаткові вказівки щодо блокування пошукових систем. Єдиним способом, який я можу подумати, щоб повністю заблокувати сайт, було б додати певну форму захисту паролем перед сайтом, яку потрібно виконати до того, як вміст буде показаний.

Поради SEOMoz щодо того, що не з’являються в пошуку

— Метью Брукс
джерело

Дякуємо, що додали до обговорення. Захист паролем працює добре для запобігання сканування, але не запобігає індексуванню. Оскільки robots.txt робить гарну роботу в припиненні цього, єдиною перевагою захисту пароля є те, що це не дозволить стороннім очам знайти його. На жаль, більшість вмісту недостатньо чутливі, щоб бути "захищеними" і, безумовно, не ставлять перед собою проблем із зручністю використання. [продовження ...]

— Кевін Пено

Одна з аналогій, яку я знайшов найбільш корисною у своїх дослідженнях, - порівняння з телефонними книгами. Якщо пошукові системи - це телефонні книги, і ви просите не включати їх до списку, то ви можете попросити їх ніколи не перелічувати, і вони повинні це поважати. На жаль, пошукові системи діють більше схожими на компанії, з якими інші компанії продають контакти, до яких в свою чергу надаються всі бажаючі платити / просити.

— Кевін Пено

@Kevin Я розумію, про що ви говорите, на жаль, я не думаю, що його буде неможливо повністю усунути з тим, як працюють пошукові системи в даний час, найкраще, на що ви можете сподіватися, - це лише перелік URL-адрес у такому випадку.

— Меттью Брукс

О, я це розумію зараз (післядослідження). Крім того, будь ласка, не приймайте мого коментаря до вашої відповіді ні в якому негативному світлі. Я оцінюю ваше доповнення до теми, я просто відповідав на те, щоб додати мінуси впровадження такого рішення, а також додав трохи поза тематичного банера. : P

— Кевін Пено