Чи дотримується програма Google Preview Robots.txt?


11

Тому що це впевнено виглядає так, як і є. На моїх сайтах ми забороняємо каталог зображень, а в попередньому перегляді відсутні всі зображення, завдяки чому сайт виглядає химерним.

Це так і чи існує спосіб дозволити лише боту для попереднього перегляду отримати доступ до зображень за допомогою robots.txt?

EDIT: Схоже, попередній перегляд створений як звичайним Google Bot, так і звичайним ботом Google Web Preview, як згадується (коротко) у Центральному блозі веб-майстрів .

Використовуючи сайт: search і моє програмне забезпечення для моніторингу, я міг бачити, коли бот потрапив на мій сайт і коли це сталося, зображення відображалися чудово в попередньому перегляді. Тому я здогадуюсь, що звичайний сканер ігнорує зображення на robots.txt, але сканер попереднього перегляду все одно отримує зображення.

Ця реалізація здається дещо крихкою, тому що мої варіанти здаються такими:

  1. дозволити боту google сканувати мої зображення (що я не хочу робити)
  2. використовувати тег nosnippet, який блокує попередній перегляд, але ТАКОЖ фрагменти (що я не хочу робити)
  3. Нехай з'являться невмілі попередні перегляди, які можуть негативно вплинути на кліки

Якщо справа лише в тому, щоб не індексувати зображення, ви можете дозволити сканування, але подавати зображення за допомогою заголовка HTTP x-robots-тега з "noindex".
Джон Мюллер

@John Mueller Це здається, що це відповідь. Чому б не опублікувати його у розділі відповідей?
plntxt

Відповіді:


3

Я думаю, що Джон Мюллер мав це правильно у коментарях.

Якщо ви просто не маєте індексованих зображень, ви можете дозволити сканування, але подавати зображення за допомогою заголовка HTTP x-robots-тега з "noindex"

Я не знав, що ви можете дозволити Google сканувати вміст без його індексації. Я поставив його техніку на місце і просто чекаю, коли я повзаю, щоб побачити, чи спрацювала вона.

Я прийму це як відповідь через кілька днів, якщо Джон не хоче додати свої коментарі до розділу відповідей, щоб він міг заробити представник.


Вибачте за коментар-відповідь :). Варто пам’ятати, що цей процес на сьогодні не дуже швидкий. Зміна статусу індексації зображень, як правило, повільніше, ніж веб-пошук, і оновлення попередніх зображень також може зайняти набагато більше часу, ніж оновлення звичайного вмісту веб-пошуку (кешована сторінка, назва, фрагмент). На практиці я уявляю, що це щось, що потребує порядку тижня, щоб ви побачили будь-які зміни - тож будьте терплячі :).
Джон Мюллер

Терпіння є ключовим. Через декілька тижнів від зміни деякі види зображень зараз видно, тоді як вони ще відсутні. Але це, здається, було вирішенням моєї проблеми.
plntxt

2

Оскільки більшу частину попереднього перегляду виконує сканер бота Google, блокування сканування певної частини вашого веб-сайту вплине на попередній перегляд ...

Чому ви не хочете дозволити боту Google сканувати ваші зображення?


2
Ми витрачаємо чималий час і гроші, вкладаючи гроші в фотографію продукту, і ми вважаємо за краще не використовувати зображення без пошуку зображень, оскільки люди, які використовують пошук зображень, зазвичай шукають зображення і не хочуть купувати товар. Якби наші зображення були в індексі, конкурентам було б легше їх викрасти.
plntxt

1
Ви можете спробувати закреслити свої фотографії та / або стеганографію
захистити

1
@G. Qyy Або я міг заплатити нескінченну кількість мавп, щоб сканувати в Інтернеті зображення, захищені авторським правом.
plntxt

@Jim: Або ти можеш дорого зберігати фотографії на паперах, і ніколи, ніколи не розміщуй їх в Інтернеті ... ^^
Pascal Qyy

1
Добрий момент - ніщо не може повністю захистити ваші фотографії, але я дійсно вважаю за краще не мати їх в індексі Google. Я не прихильник водяних знаків, і найефективніший спосіб зменшити наші зображення в іншому місці - це утримати їх поза індексом.
plntxt

2

Далі наведено технічне рішення, яке може бути, а може бути, не просто застосувати до вашого сайту.

Цілком можливо (навіть ймовірно), що Google вийде зі способом зробити це лише за допомогою декількох підказок у метаданих або robots.txt, але до цього часу….


Крок 1.

Створіть послугу переадресації / сервлет для зображень лицьової сторінки.

Тобто така URL-адреса

/frontpageimages/[image name]

що робить перенаправлення на сторону сервера

/images/[image name]

Крок 2.

Потрібно переписати всі посилання на зображення на вашій головній сторінці (і лише на головній сторінці), щоб перейти через службу перенаправлення з кроку 1, а не посилатися безпосередньо на зображення.

Крок 3.

Переконайтеся, що robots.txt дозволяє googlebot сканувати /frontpageimages/


Це повинно гарантувати, що Google може сканувати будь-які зображення, на які вона зустрічається, на вашій головній сторінці, залишаючи будь-які зображення на інших сторінках у спокої.

Хоча послуга переспрямування теоретично може використовуватися для сканування всіх ваших зображень, не технічно порушуючи ваш robots.txt, роботи (наприклад, googlebot) не дуже добре. І недоброзичливі роботи не збираються турбуватися про robots.txt.


Хто хоче лише, щоб їх передня сторінка відображала попередній перегляд? Я знаю, що хочу, щоб на кожній сторінці відображався гарний попередній перегляд. Якщо ви робите це для кожної сторінки, ви, по суті, нехтуєте метою блокування зображень в першу чергу.
Джон Конде

@John Ви праві. У такому випадку ви або хочете, щоб Google проіндексував вас, або ви цього не зробите.
Кріс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.