Як Google розпізнає дату публікації публікації


17

Коли я щось шукаю в Google, іноді я бачу під собою дату публікації публікації / статті. Я також шукав власну статтю, яку я розміщую на своєму веб-сайті Wordpress, і Google також визнає дату її публікації.

Коли я відкриваю джерело свого веб-сайту, я не бачу спеціальних тегів або нічого, що вказує на дату публікації. Він написаний лише в звичайному div, без нічого спеціального тегу, який би вказував SE, що це дата публікації (я можу мати будь-які інші дати інших речей навколо сторінки).

Тож чи чітко вводиться в Google точне місце дати публікації Wordpress у дереві DOM, чи я щось пропускаю?

Я будую новий веб-сайт із власною CMS, і я намагаюся з’ясувати, як реалізувати розпізнавання дати, опублікованої.


2
Вам, звичайно, чогось не вистачає: ви лише переглянули HTML, але є й заголовки HTTP, які говорять, коли сторінку було змінено. Про що вони повідомляють за постійну посилання вашої статті? Я б здогадався, що Google використовує це в поєднанні з власними записами про те, наскільки змінилася сторінка, але я не маю фактичних доказів - звідси коментар, а не відповідь.
Пітер Тейлор

так, у мене була "груба" спроба. Я буду
вивчати

@Peter Без сумніву, що заголовки HTTP (зокрема заголовок Last-Modified) є показником, який використовують SE. Однак я сумніваюся, що він відіграє значну роль у визначенні "опублікованої дати" статті - принаймні не в тому, що Google відображає як дату публікації. (У інших ПС не відображається "дата опублікування"?) Опублікована дата статті, ймовірно, не є останньою зміненою датою документа. Більшість сторінок на динамічних сайтах (навіть для WordPress), схоже, повертаються близько до поточної дати / часу. IMO Заголовок останнього модифікації використовується в основному для кешування.
MrWhite

я думаю, це має щось
спільне з картою сайтів

Останнє змінення HTTP stackoverflow.com/questions/204010/… або деякі напівстандартні метадані HTML: stackoverflow.com/questions/4575967/… - це інші можливості, але я не впевнений, чи Google їх реально використовує.
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

Відповіді:


4

Вам слід перейти через XML-файл Sitemap або RSS-канал, щоб індексувати свої публікаційні дані через основні пошукові системи, такі як Google, Yahoo та MSN. Створіть файл XML для свого веб-сайту та подайте його в веб-майстер-інструменти для покажчика.


7

У мене просто з’явилася проблема, що всі мої основні сторінки були показані як оновлені понад 4 роки тому, хоча Google знає , що це неправда, оскільки сторінки індексувались так довго і суттєво змінюються з місяця в місяць. Після того, як був справді спантеличений, потім справді роздратований, потім знову спантеличений, я нарешті знайшов проблему. Наші юридичні умови подавались у прихованому розділі "Останнє оновлення: 30 жовтня 2007 року", і цей текст завантажувався майже на всі наші сторінки. (Оскільки він з'являється при реєстрації) Я його видалив, і тепер я припускаю, що дата або зникне, або буде виправлена ​​на щось більш розумне.

Казка про застереження та ще один доказ того, що вони перевіряють семантику сайту більше, ніж технічні деталі чи власну історію індексації.


Ви включаєте останню змінену дату своїх сторінок де-небудь ще на сторінці, або RSS-канал, або файл XML-сайту?
MrWhite

Ні, тому що сайт не новинний сайт, і я вважаю за краще не наголошувати на ньому. В ідеалі не було б дати для моєї домашньої сторінки. Крім того, я уявляю, що вони, ймовірно, беруть останньогомоду з великим зерном солі - я знаю, якби я був на них.
mmdanziger

7

Я дуже сумніваюся, що опублікована дата публікації чи статті базується на <lastmod>записі у мапі сайту XML (як це запропонували інші) або в останньому зміні заголовка HTTP з цього приводу. Карта сайту XML є лише дорадчою, а не авторитетною. Остання змінена дата документа, ймовірно, не збігається з (оригінальною) датою публікації статті. І, як я згадував у своєму коментарі вгорі сторінки, остання змінена дата документа, ймовірно, важливіша для кешування і, можливо, визначення швидкості сканування. Заголовок HTTP останнього зміну динамічно створених сторінок часто дуже близький до фактичної дати / часу (як це стосується блогів WordPress).

З іншого боку, канал RSS / Atom містить цей специфічний інформаційний елемент. І дійсно, на сайтах Wordpress, які не містять дату публікації у вмісті, дата публікації все ще відображається в результатах пошуку Google. Наскільки я можу сказати, це відповідає даті в RSS-стрічці.

РЕДАКТИКА №1: Однак RSS-канал не обов'язково містить усі сторінки. У більшості випадків він повинен містити лише останні чи останні оновлені сторінки. Але немає причин, щоб Google забував те, що він уже прочитав, а надання вмісту цієї сторінки не змінилося, як і остання змінена дата.

Якщо немає RSS-каналів, я думаю, що Google досить розумний для аналізу вмісту сторінки. Особливо, якщо дати позначаються "семантично" за допомогою мікроформатів . Цілком можливо, що Google побачить таке, як авторитетну дату опублікування для статті, в якій вона міститься:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google, безумовно, читає мікроформати - hCard, hReview тощо.

Додамо лише, що я не думаю, що Google оголошує дату публікації, якщо б не зміг знайти щось авторитетне, що б це підказало. "Дату публікації" для спекулятивних даних не збирається виводити, оскільки неправильна "дата публікації" нікому не корисна, і Google отримає багато цього!

І лише для запису (якщо @Tom пропонує інше :) Я думаю, що в публікаціях / статтях повинна бути помітно відображена дата публікації. Багато хто цього не робить, і це може засмутити читача, особливо, коли досліджуєш проблеми з технологіями, і ти вважаєш, що прочитавши статтю на півдорозі, вона застаріла!

EDIT № 2: з тих пір я відчував подібне роздратування, яке @mmdanziger детально пояснює у своїй відповіді. На одному з моїх старих сайтів у верхній частині кожної сторінки (написаний на сторінці з JavaScript !!) я маю текст форми "Останнє оновлення Сонця, 17 червня 2012 року" (не позначений спеціальним чином ). Ця сама дата була підібрана Google і тепер відображається поряд з кількома (але не всіма) сторінками, які відображаються в SERPS - це, безумовно, не дата публікації сторінки. Здавалося б, Google просто перебирає сторінку на рядок форми "останній раз оновлений ( датестринг )" ( обробивши JavaScript !!). Цей конкретний сайт не має каналу RSS. На сайті є файл Sitemap.xml, але дати відрізняються.

Я помітив подібну поведінку і на інших сайтах.


Як він визнає правильну дату від цього? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...Це ТІЛЬКЕ місце, яке посилається на опубліковану дату моєї публікації, і Google знаходить її і правильно відображає в результатах пошуку
Can Poyrazoğlu

Чи є в якорі щось конкретне, що слідує за ним? Потім знову це може бути не так. Чи є у вас також RSS-канал (пов’язаний із тегами META документа)?
MrWhite

Я шукав відповідь "як Google визначає дату?" але помітив те саме! Google намагається знайти рядок часу на самій сторінці, а не в останньому зміні заголовка або Sitemap.xml <lastmod>! Дякую за підтвердження моїх думок!
evilReiko

5

Я думаю, що Google використовує файл Sitemap та RSS для розпізнавання опублікованої дати. Ви можете застосувати цю функцію у своїй CMS, створивши карту сайту xml відповідно до Стандартів .

<lastmod>2011-08-18</lastmod>

2

За словами Джона Мюллера в Google:

Ми використовуємо різноманітні сигнали, щоб визначити, яку дату показати, або якщо є сенс показувати її взагалі; він не пов'язаний з одним конкретним атрибутом.

Джон Мюллер - Twitter

Однак я вважаю, що найімовірніше, що Google шукає дати на веб-сторінках у таких місцях:

  • На простому погляді на сторінці, використовуючи машинне навчання
  • Схематизовані дані Schema.org, особливо якщо їх також можна побачити на увазі на сторінці

1

Я думаю, що він розумно шукає будь-які дати на сторінці і коли впевнений, що це відповідна дата, яку він використовує.

Іноді це трохи складно, тому що я думаю, що це може мати негативний вплив на функцію натискання SERP, я вважаю, що це може мати тимчасовий позитивний вплив, якщо це нещодавня стаття / публікація, але я впевнений, що мої сайти без неї краще. (Шукачам Google, можливо, не обійтися і без цього!)

Немає варіантів керування ним через Google, лише своїми власними методами. Ви можете:

  • Замініть дати на динамічно генеровані зображення, намагаючись зупинити Google на їх виявлення, але це може призвести до інших проблем, таких як візуальне вирівнювання / послідовне відображення / доступність шрифту тощо.
  • Розділіть усі дати зі сторінок (це знову може неприємно для відвідувачів / користувачів, коли вони хочуть дізнатися вік джерела, якщо у вас є відповідна інформація).

З цих причин я б просто проігнорував це.


Я не намагаюся видалити дату :) Я намагаюся додати функцію дати на новий сайт, який
будую
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.