Як дізнатися, коли URL вперше індексується Google?


16

Як дізнатися, коли певна URL-адреса була вперше індексована Google? Я вважаю за краще рішення, яке працює навіть для URL-адрес конкурентів, які не належать мені.


1
Цілком можливо, що відповідь - «ні». Google може навіть не зберігати цю інформацію (оскільки немає конкретної причини, чому вони повинні були б), або, навіть якщо вони це роблять, вони не можуть передавати її третім сторонам.
Ільмарі Каронен

1
Як і інші згадували, ви не можете отримати цю інформацію. Якщо у вас є доступ до журналів сервера, ви могли бачити, коли він вперше сканував, але навіть це не означає, що він був індексований тоді.
Джон Мюллер

Відповіді:


15

Щоб дізнатися вік URL-адреси, ви можете перейти за цим посиланням, замінивши www.example.comпотрібну URL-адресу:

https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl

Наприклад, ось результат від Google для Meta на сайті переповнення стека : введіть тут опис зображення

Інакше машина Wayback - це також хороше рішення, але менш точне з мого досвіду.


3
Чи доступна ця функція Google і англійською мовою? Ви пов’язані з французькою версією.
Стівен Остерміллер

1
@StephenOstermiller Просто змініть tld з .frна .com.
MDMoore313

2
@Zistoloen +1 для вашої відповіді, але я сумніваюся у вашому запиті. Як ви сказали, я шукав www.stackexchange.com за допомогою вашого прикладу запиту, але це не показує жодного результату. Я шукав, видаляючи wwwі в цей час, він показує результат для дати, Dec 1, 2014яка є зовсім недавньою датою, яка не може бути віком URL-адреси. Я шукаю неправильно? чи нічого не вистачає?
Сатхія Кумар

2
Я "вкрав" цю відповідь і додав її до своєї відповіді з кращим поясненням. Це чудова хитрість, Зістолоен.
Стівен Остерміллер

6
@Stephen & Zistoloen: Це, як правило, не дата, коли сторінку вперше індексував Google. На основі деяких тестувань дата, показана за допомогою цього методу, видається зі змісту сторінки (якщо Google вважає, що вона бачить щось, схоже на дату "опубліковано" або "востаннє змінено"), або, якщо такої немає дата міститься у вмісті на основі дати, коли Google востаннє помітив (істотну?) зміну сторінки. Звичайно, якщо сторінка ніколи не була змінена після її першої публікації, це може трапитись так само, як і дата її публікації, але гарантій цього немає.
Ільмарі Каронен

8

Zistoloen знайшов спосіб Google відображати дату, коли він вперше індексував вміст сторінки. Я додаю це до своєї відповіді, бо думаю, що можу пояснити це більш чітко.

  1. Шукайте в Google те, що відображає потрібну вам сторінку
  2. Використовуйте "Інструменти пошуку"
  3. Виберіть "Спеціальний діапазон ..." зі спадного меню "Будь-який час"
  4. Введіть великий діапазон дат, наприклад, 1/1/1900 до 1/1/2020

Потім Google покаже дату, коли виявив вміст, який знаходиться на сторінці в результатах пошуку.

перший індексований

Якщо сторінка оновлюється новим вмістом, Google також оновлює цю дату. Тож це скоріше дата "першої індексованої цього вмісту", а не дати "вперше індексованої цієї URL"


Кеш-пам’ять Google для сторінки показує, коли вона останньо індексована. Ви бачите, що домашня сторінка Stack Exchange була останньо індексована сьогодні:

введіть тут опис зображення


Інший варіант - використання машини Wayback Internet Archive . Це показує, як виглядала сторінка в минулому. Ви можете зрозуміти, коли сторінки були опубліковані вперше. І Google, і Інтернет-архів сканують та використовують сторінку незабаром після її публікації.


1
Чи дасть ваш перший варіант точний результат для всіх URL-адрес? Я шукав bing.com так, як ти пояснив, але не отримував першої індексованої дати bing.com. Вибачте, якщо я помиляюся?
Сатхія Кумар

1
Це здається точним до тих пір, поки вміст сторінки не змінився. Google може скинути цю дату, якщо на сторінці відбудеться капітальний ремонт. Моя домашня сторінка занесена до 1 лютого 2002 року, хоча внутрішня сторінка вказана як 1 лютого 2001 року. Домашня сторінка була перероблена за цей час, тоді як внутрішня сторінка суттєво не змінювалася з 2001 року.
Стівен Остерміллер

@SathiyaKumar Bing.com дає дату 19 березня 2014 року для мене, використовуючи цей метод. Зауважте, що все, що не індексується google (через robots.txt чи іншим чином), очевидно, не відображатиметься таким чином.
Thebluefish

4

Там не може бути якийсь - небудь спосіб , щоб з'ясувати , коли довільний веб - сторінка була першим індексується Google - звичайно , я не знаю ні одного способу зробити це. Цілком можливо, що Google просто не зберігає цю інформацію, оскільки немає реальної причини, чому б їм це потрібно. Крім того, навіть якщо вони зберігають цю інформацію, вони справді не мають особливих причин робити її вільно доступною для третіх сторін.

(Якщо це ваша власна сторінка, і ви маєте доступ до своїх старих журналів доступу до веб-сервера, це просто - просто шукайте в журналах перший візит від Googlebot на цю сторінку. Але в іншому випадку, можливо, це точно немає.)


У будь-якому випадку метод, описаний Зістолоен та Стівеном Остерміллером у своїх відповідях, як правило, не розкриває дату, коли певну URL-адресу вперше індексував Google. Швидше, це показує дату, коли Google вважає, що вміст за URL-адресою було опубліковано або востаннє оновлено, і часто базується на більш-менш надійних спробах Google "обнюхати" дати з самого вмісту сторінки.

У цьому відео Matt Matt Cutts коротко торкається того, як обираються ці дати. Для зручності я переписав відповідний фрагмент відео (приблизно з 2:09 до 2:22) нижче:

"... часто ви бачите дату, коли ми робимо її висновок, або коли ми вперше бачили її, коли ми проскакували цю сторінку, або якщо ми можемо знайти її десь на сторінці, і ми можемо витягнути цю дату, ви" Це побачимо на самому початку фрагмента ".

Для таких сторінок, як публікації в блогах, вікі-сторінки або питання Stack Exchange, де програмне забезпечення, що працює на веб-сайті, автоматично повідомляє точну дату створення / модифікації на самій сторінці, дата, про яку повідомляє Google, швидше за все, відповідатиме їй. Однак для інших типів сторінок нюх дату Google повинен працювати більше, і це не завжди підходить правильно (що б "правильне" могло означати в цьому контексті).

Зокрема, ці дати в основному марні для визначення того, як давно сторінка була індексована з двох причин:

  • Якщо сторінку нещодавно було змінено, а дата модифікації відображається помітно на сторінці, Google може вибрати її як "дату" сторінки, навіть якщо модифікація була повністю тривіальною.

    Наприклад, ця досить стара вікі-сторінка (яку вперше індексували archive.org у 2003 році ) Google наразі визначає як дату від 10 листопада 2014 року - дату останнього редагування, як показано внизу сторінки. Зміна, що сталася в цю дату? Просто видаліть одне посилання знизу сторінки.

  • І навпаки, Google, здається, рада прийняти дуже старі "дати публікації", якщо знайде їх на сторінці - навіть ті, що передували запуску всесвітньої павутини .

    Наприклад, ця сторінка старого конкурсу програмування датується Google 15 вересня 1986 року - фактично датою події, описаною на сторінці. Аналогічно, ця сторінка, яка документує студентський страйк в 1970 році , датується Google 10 травня 1970 року (дата одного зі сканованих документів на сторінці), і, що ще більш абсурдно, ця сторінка з керівництвом Linux датується Google 4 листопада. , 1989 р. (Випадкова прикладна дата, використана на сторінці).

    Ви можете знайти ще багато таких прикладів, використовуючи користувацький пошук діапазону дат, описаний Стівеном та Зістолоен, але встановивши верхній кінець діапазону до, скажімо, 6 серпня 1991 року .


Що ж, у своїй відповіді ви в основному виступали проти відповідей Стівена та Зістолоєна, але я не знаходжу належної відповіді на питання ОП "Як мені знайти, коли URL вперше індексується Google?" у вашій відповіді !!
Сатія Кумар

Не може бути жодної відповіді, крім того, що "ви не можете" або "ніхто не знає як". Але ти маєш рацію, дозволь мені це відредагувати у своїй відповіді.
Ільмарі Каронен

@llmariKaronen +1 для редагування та додавання відповіді на власне питання про ОП.
Сатхія Кумар
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.