Як сказати, скільки років сторінки?


15

Я подумав, що Google більш-менш точний у визначенні того, хто вперше розмістив текст та хто скопіював. Однак, коли я використовую "інструмент пошуку: індивідуальний інтервал", результати є досить дивними. Я знайшов сторінки, що відносяться до 2002 року, для веб-сайту, який я мав лише пару років.

Тож Google не є точним, щоб з’ясувати, хто скопіював та хто написав оригінал. Що?

введіть тут опис зображення

Якщо це stackexchange.comбуло створено в 2009 році, то як це можливо? hermeneutics.seстарше, ніж переповнення стека!


Хтось володів доменним іменем перед вами? З якими сторінками ви порівнюєте в Google?
closetnoc

Я оновив питання із даними SE. Мітки часу не можуть бути точними.
Ренан

2
Ого. Я не впевнений. Я розумію механіку цього нормально, але те, що робить Google, поки залишається загадкою. У мережі дуже мало інформації про те, як Google визначає дати. У нас виникло питання щодо того, як Google нещодавно визначав змінені дати. Я робив кілька досліджень і майже нічого немає. Все-таки я ще раз загляну. Але це може зайняти пару днів. Майте на увазі, що програмне забезпечення CMS та, швидше за все, код SE не повертаються, створюють та змінюють дати, як Apache, для сторінок HTML. І це може бути відповіддю.
closetnoc

Це не повинно бути Google, але я дуже хочу знати, чи мої користувачі плагіатують чи плагіатують. = /
Ренан

Поки, схоже, Google не розуміє формат дати в HTML, але це не є переконливим. Вихідний код першої прикладної сторінки не дає чітких підказок дати Google. Google (принаймні) виглядає або дата в такому порядку: URL-адреса, назва, тіло (вміст), метатеги, остання змінена дата з відповіді HTTP. Повернення HEAD запиту створюють дату та останню змінену дату. Крім того, GET з if-modified - оскільки або повертає ресурс з 200 Ok, або повертає 304 Not Modified. Код SE може не повертати ці єдині URL, заголовок, вміст та метатеги.
closetnoc

Відповіді:


12

Я дослідив відповідь на це питання таким чином: використовуючи Google, оскільки це є приклад, який я маю, як Google отримує дати створення та змінені дати та формати дат, які Google розпізнає. Будь ласка, розумійте, що ця інформація існує не лише на кількох сторінках, і мені довелося витягувати дані з дуже багатьох джерел, деякі з яких, здається, не застосовуються безпосередньо і складають їх разом. У деяких випадках інформація отримується з декількох джерел і не завжди цитується.

Google шукає дати сторінки в такому порядку; URL-адреса, тег заголовка, тіло (вміст), метатеги, заголовок відповіді HTTP принаймні, що стосується пошукового пристрою Google. В інших параграфах в інших документах жодне розпорядження не було задокументоване, проте список обговорювався і, здається, підтверджує список. Якщо ви подумаєте про це, це відображає порядок, який шукала б пошукова система; один - відкрийте свою сторінку (посилання), а два - прочитайте сторінку зверху вниз (заголовок, тіло та метатег) за винятком метатегів (невелика деталь) та заголовка відповіді HTTP. Ось перелік щодо приладу:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Примітка. Дата початку - це дата, коли сторінку вперше запросив Google. У разі відсутності дати створення використовується дата початку.

1] Будь-яка пошукова система може запитувати ресурс через HTTP GET-запит, і веб-сервер повертає останню змінену дату в заголовку відповіді з ресурсом у пакеті даних.

2] Будь-яка пошукова система може запитувати інформацію заголовка ресурсу через HTTP HEAD-запит, і веб-сервер повертає змінену дату в заголовку відповіді без ресурсу в пакеті даних.

3] Будь-яка пошукова система може запитувати, якщо ресурс був змінений з певної дати, подавши запит на ресурс із HTTP GET з if-modified - з моменту встановлення дати. Якщо ресурс був змінений з моменту встановлення дати, веб-сервер відповідає у відповідь 200 Ок і повертає ресурс або якщо ресурс не змінено з моменту встановлення дати, веб-сервер відповідає 304 Не змінено без повернення ресурсу .

Google робить багато запитів, використовуючи метод №3 для економії на пропускній здатності. Ви побачите їх у файлах журналу веб-сервера.

Примітка. Можливо, що система управління вмістом (CMS) або інше програмне забезпечення не можуть надати відповідну дату в заголовку відповіді.

Ці приклади дат також походять з документації на пристрій Google, але вони також існують в інших місцях, що стосуються загального пошуку. Я взяв ці деталі з документації на пристрій просто тому, що її можна було вирізати та вставити як список, де в інших місцях це було не так охайно.

4] Google шукає дату в межах URL-адреси. Він шукає наступні формати; YYYMMDDHH - YYYY - YYYYMM.

5] Google шукає дату в тезі заголовка. Він шукає наступні формати; YYYMMDDHH - YYYY - YYYYMM, хоча я підозрюю, що інші формати можуть бути розпізнані. Дивіться нижче.

6] Google шукає дату в тезі (темі). Він шукає наступні формати; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY, хоча я підозрюю, що інші формати можуть бути розпізнані. Дивіться нижче.

Примітка. Відомо, що Google шукає саме дату під першим H1тегом. Це тому, що блоги часто ставлять дати в цьому місці.

7] Google шукає метатег, як цей. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Крім того, Google розпізнає такі формати дати.

YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY

Знайдене нами дослідження не дало відповіді на питання про час.

У випадку цитованих прикладів сторінки не містять підказки щодо дати, за винятком тегів, що можуть бути проігноровані. Можливо, що програмне забезпечення / веб-сервер SE не може повернути дати створення та зміни в жодному заголовку відповіді.

Чому і як Google отримав ці дати, є хорошим питанням, яке ніколи не може бути вирішене. Я все одно буду шукати.


3
Чи є у вас посилання на "Google шукає дати сторінки в такому порядку; URL-адреса, тег заголовка, тіло (вміст), метатеги, заголовок відповіді HTTP."? Чи є у вас якесь число чи статистика для цього дослідження ?. Якби ви могли розмістити посилання на те, що ви розмістили тут, було б набагато краще для всіх нас.
PatomaS

Я вдячний, що ви це запитуєте. Багато з того, що я знайшов, було в шматочках і шматочках. Список був знайдений у кількох місцях, але замовлення було знайдено в документації на пошуковий пристрій Google і, здається, було підкріплено в абзацах в інших місцях. Я буквально переглянув кілька десятків документів, на які знадобилося зовсім небагато часу. Я намагався бути обережним, щоб сказати, що мені довелося зібрати дані з різних джерел, оскільки, здається, немає прямої інформації про це. Я відредагую заяву, щоб зробити її більш зрозумілою.
closetnoc

Я також можу підтвердити, що наступний рядок формату дати, який міститься на якомусь article.post > div.post-content > h2 > pрівні, нещодавно був підібраний Google і використаний для відображення дати: "Останнє оновлення: 7 жовтня 2018 року"
Метт

-2

Якщо ви хочете дізнатися, скільки років домену, пошукайте в Google машину зворотного зв'язку . Цей сайт ви шукаєте: http://archive.org/web/ .

Якщо ви хочете виявити плагіат, це посилання допоможе вам: http://copyscape.com/signup.php?pro=0&o=f

Також пошукайте в Google "перевірку плагіату".

Сподіваюся, я допоміг.


3
З повагою потрібно перечитати питання.
closetnoc

Питання "Як сказати, скільки років сторінки?" Перейдіть за моїм посиланням, і ви побачите, що відповідь хороша. Дякуємо, що прочитали це.
Паскут

3
Ви не читаєте питання. Ви читаєте заголовок. Зворотний автомат не відповідає на питання.
closetnoc

Ти маєш рацію, я відредагував своє запитання ..
Паскут

1
Wayback машина відстежує сторінку в домені. Не корисно порівнювати дати між певними сторінками. Я шукаю точні засоби, щоб сказати, який з них був опублікований першим.
Ренан
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.