Google досі сканує та індексує мої старі, фіктивні, тестові сторінки, яких зараз 404 не знайдено


19

Я створив свій сайт із зразковими сторінками та даними (lorem ipsum тощо), і Google переглянув ці сторінки. Я видалив усі ці сторінки і фактично додав реальний вміст, але в інструментах для веб-майстрів я все ще отримую багато 404 помилок, намагаючись Google сканувати ці сторінки. Я встановив їх як "позначити як вирішені", але деякі сторінки все ще повертаються як 404.

Крім того, у мене є чимало цих зразкових сторінок, які все ще перераховані, коли я здійснюю пошук свого сайту в Google. Як їх видалити. Я думаю, що ці нерелевантні сторінки шкодять моєму рейтингу.

Я насправді хотів стерти всі ці сторінки і почати індексувати мій сайт як новий, але прочитав, що це неможливо? (Я надіслав мапу сайту та використав "Вибрати як Google.")

Відповіді:


17

Добре. Насамперед. Не позначайте свій 404 як зафіксований . Ви фактично продовжуєте це питання. Google спробує отримати сторінку, яка повертає 404 кілька разів, перш ніж відмовитись. Це тому, що помилка 404 вказує на тимчасову ситуацію, коли помилка 410 говорить про те, що сторінка зникла . Тож кожен раз, коли ви позначаєте 404 як фіксований , ви фактично говорите Google спробувати ще раз, таким чином, запускаючи процес усунення знов.

Запустіть ці сторінки 404 на деякий час, і Google перестане їх шукати і скине сторінки з індексу. Це займе час, але якщо помилка 410, це найпростіший спосіб. Помилка 410 зробить процес швидшим, але складніше представити помилку 410, а 404 - це за замовчуванням, що полегшує та природніше рішення.

Видалені сторінки зникнуть приблизно через 30-60 днів, якщо ви зможете зачекати. Це залежить від того, як часто Google відвідує ваші сторінки. Це може зайняти більше часу, але після виявлення 404-х років Google любить спочатку перевірити сайт, а потім, залежно від кількості 404-х, може паяти ваш сайт більш агресивно.

Використання карти сайту фактично не усуває жодних проблем з індексом. Це лише спрощує життя пошуковим системам. Він ніколи не сприймається як всебічний список сторінок, які має будь-який сайт. Якщо пошукова система прочитає мапу сайту і все-таки знайде сторінки, не зазначені в мапі, вона продовжить індексувати ці сторінки.

Один варіант, якщо це має сенс зробити, - це перерахувати ці сторінки у вашому файлі robots.txt. Якщо їх не надто багато (тобто щось ви можете зробити, і ваш файл robots.txt не буде занадто довгим), це буде швидшим рішенням. В іншому випадку я б просто зачекав і нехай 404 помилки закінчуються самостійно.

Одне останнє слово. Ви будете гаразд. Дійсно. У вас все вийде дуже добре, якщо ви будете терплячі.


1
Додавання 404 сторінки до robots.txt звучить як погана практика. Це лише заплутає гусеничний і забирає багато абсолютно непотрібного ведення господарства.
Доруса

@ Зору Зовсім не. Одне не має нічого спільного з іншим. Додавання будь-якої сторінки до файла robots.txt дуже швидко видалить її з індексу. Крім того, пошукова система не намагатиметься отримати доступ до файлу і, отже, немає 404.
closetnoc

1
Як ви кажете, якщо ви додасте його до robots.txt, пошукова система не намагатиметься отримати доступ до сторінки, але сторінка все ще буде існувати. Тож якщо якихось день ви вилучите його з роботів, індексація повернеться. Краща практика - дозволити 404 або 410 виконувати роботу.

@closetnoc Що ти мав на увазі it is harder to present a 410 error?
Євгеній

@Evgeniy Помилка 404 - це те, що задано за замовчуванням (Apache принаймні та старші IIS). Помилка 410 повинна бути навмисною і вимагає певної роботи. Технічно це не складне завдання, однак це вимагає певного досвіду, хоча і не багато. Ура !!
closetnoc

8

Після публікації сторінки Google ніколи не забуде про неї. У мене є сайти, з яких я видалив сторінки 15 років тому. Googlebot все ще повертається та періодично перевіряє ці сторінки.

Щоб сторінки не відображалися в пошуковій системі, 404 помилки виконають цю роботу. Google може зайняти день, щоб видалити сторінку з індексу після того, як Googlebot сканує її далі. Якщо ви хочете, щоб його видалили швидше, замість цього поверніть статус "410 Gone". Google видаляє 410 сторінок відразу після їх сканування замість того, щоб чекати день. Google не видаляє 404 сторінки негайно, щоб запобігти веб-майстрам стріляти в ногу, як описав Метт Куттс :

Так що з 404, разом з я думаю, що 401s, а може бути, 403s, якщо ми бачимо сторінку і отримуємо 404, ми будемо захищати цю сторінку протягом 24 годин у системі сканування, тож ми зачекаємо, і ми можемо сказати, що, можливо, це було перехідний 404, можливо, це дійсно не було призначено, щоб сторінка не була знайдена.

Ще один метод, який ви можете розглянути, - це перенаправлення. Перенаправлення старої сторінки на заміну 301 не дозволить їй відображатися як помилка в Інструментах Google для веб-майстрів. Це можливо лише за наявності нової сторінки для кожної із старих сторінок. Перенаправлення всіх тестових сторінок на домашню сторінку не допоможе, оскільки Google вважає переспрямування на домашню сторінку помилками "404", які все ще відображатимуться у цьому звіті.

Маючи 404 помилки в Інструментах для веб-майстрів, вам не зашкодить. Помилка 404 на вашому веб-сайті може допомогти вам навіть тому, що це показує Googlebot, що ваш сайт налаштований правильно. Ось що Джон Google Мюллер (який працює над Інструментами для веб-майстрів та сайтами) повинен сказати про 404 помилки, що з’являються в інструментах для веб-майстрів :

ДОПОМОГА! МОЙ САЙТ МАЄ 939 ПОМИЛЬНИХ ПОМИЛКІВ 1

Я бачу подібне запитання кілька разів на тиждень; ви не самотні - багато веб-сайтів мають помилки сканування.

  1. 404 помилки щодо недійсних URL-адрес жодним чином не завдають шкоди індексації або ранжируванню вашого сайту . Не має значення, чи є 100 або 10 мільйонів, вони не зашкодять рейтингу вашого сайту. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. У деяких випадках помилки сканування можуть виникати з законної структурної проблеми на вашому веб-сайті або CMS. Як ти розповідаєш? Перевірте походження помилки сканування. Якщо на вашому веб-сайті є непрацездатне посилання, у статичному HTML вашій сторінці, це завжди варто виправити. (спасибі + Мартіно Мосна )
  3. Що з прискіпливими URL-адресами, які "чітко зламані?" Коли наші алгоритми люблять ваш сайт, вони можуть спробувати знайти більш чудовий вміст на ньому, наприклад, намагаючись відкрити нові URL-адреси в JavaScript. Якщо ми спробуємо ці "URL-адреси" і знайдемо 404, це чудово і очікувано. Ми просто не хочемо пропускати нічого важливого (сюди вставляйте надмірно доданий мем Googlebot). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Вам не потрібно виправляти помилки сканування в Інструментах для веб-майстрів. Функція «позначити як фіксовану» лише допомогти вам, якщо ви хочете відслідковувати свій прогрес там; це не змінює нічого в нашому конвеєрі веб-пошуку, тому сміливо ігноруйте це, якщо воно вам не потрібно. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Ми перераховуємо помилки сканування в Інструментах для веб-майстрів за пріоритетністю, яка базується на кількох факторах. Якщо перша сторінка помилок сканування явно не має значення, ви, ймовірно, не знайдете важливих помилок сканування на інших сторінках. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. На вашому веб-сайті не потрібно «виправляти» помилки сканування. Пошук 404-х є нормальним і очікується від здорового, добре налаштованого веб-сайту. Якщо у вас є еквівалентна нова URL-адреса, то перенаправлення на неї є хорошою практикою. В іншому випадку ви не повинні створювати підроблений вміст, не слід перенаправляти на свою домашню сторінку, ви не повинні robots.txt забороняти ці URL-адреси - все це ускладнює нам розпізнавання структури вашого веб-сайту та обробку його належним чином. Ми називаємо ці "м'які 404" помилки. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Очевидно - якщо ці помилки сканування відображаються для URL-адрес, які вас цікавлять, можливо, URL-адрес у вашому файлі Sitemap, то це те, на що слід негайно вжити заходів. Якщо Googlebot не може сканувати ваші важливі URL-адреси, вони можуть вийти з результатів пошуку, і користувачі також не зможуть отримати доступ до них.

1
Це взагалі не було моїм досвідом. Google хоче свіжий покажчик і досить швидко видаляє сторінки. Те, що я бачу, схоже на те, що ви описуєте, - це те, де інші сайти, які використовували API Google раніше, не оновлювали свої дані і цитують вашу старішу роботу. Це часто спам-сайти, і ці цитати можуть з’являтися / залишатися / зникати / з'являтися знову. Основна причина, яку я бачу в цьому, полягає в тому, що API Google був досить розбещеним і більше не є, таким чином, спам-дані набагато старші, тому що нові дані дуже важкі для отримання, особливо якщо ви спамували раніше.
closetnoc

1
Googlebot має режим сканування, який я називаю "ми знайшли поле в URL-адресі підвалу". У цьому режимі сканування він може сканувати тисячу URL-адрес зі свого сайту підряд, жодну з яких ви не використовували протягом років. URL-адреси зазвичай не мають вхідних посилань, навіть із сайтів скрепера. Вони скануються за довжиною, спочатку скануються короткі URL-адреси.
Стівен Остерміллер

Це може бути правдою. Google очевидно великі дані. Будь-яка велика база даних має шум у ній. Це неминуче. Це може бути те, що ви переживаєте. Можливо, узгоджуються різні бази даних. Що має сенс. Але я також попереджаю вас про те, що сайти із небажаним вмістом можуть з’являтися лише протягом 2 годин зі старими посиланнями та старими цитатами. Я це бачу щодня. Вони передусім у Росії та Польщі. Ці веб-сайти використовуються для гри в локальних пошукових системах, але впливають на трафік на будь-який сайт, і їх може забрати Google. Я щодня отримую близько 12 таких матеріалів у своїй базі даних. Як правило, лише 1 з 12 сайтів залишається за будь-який період.
closetnoc

Що таке помилка 939?
Грег Нікколофф

939 - кількість помилок, це не тип помилки.
Стівен Остерміллер

5

Google, ймовірно, ще довго намагатиметься сканувати ці сторінки. Вебмайстри роблять помилки, або сайти з будь-якої причини стають недоступними, тому Google не видалить вміст при першій ознаці 404.

Крім того, ви можете подати 410 Gone. Це набагато сильніший (тобто навмисний) сигнал про те, що сторінка буквально "пішла" і не повертається. Це може запропонувати Google швидше видалити сторінку з SERP.

Я встановив їх як "позначити як вирішені", але деякі сторінки все ще повертаються як 404.

Вони "вирішені", лише якщо ви повернули сторінку назад. Якщо ви позначите його як вирішене, а сторінки не існує, помилка сканування просто повториться. Якщо сторінки не існує, просто залиште її такою, якою вона є.

Справжні 404 не шкодять вашому пошуковому рейтингу. Звіт 404 в GWT - це в першу чергу для вашої користі, щоб ви могли бачити, коли все піде не так ... коли не знайдено сторінок, які слід знайти!

Ці нерелевантні сторінки в SERP можуть бути незначним роздратуванням для ваших користувачів, однак, що вони шукають, щоб знайти ваш lorem ipsum ?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.