Чому Google зупинив індексацію сторінок у нашому sitemap.xml?


18

Ми бачимо деякі сторінки, які існують у нас, sitemap.xmlале вони незрозуміло відсутні в загальнодоступному індексі пошуку Google.

Ви не можете завантажити /superuser//sitemap.xml - ми захищаємо цей файл, оскільки з ним були проблеми в минулому, - але googlebot може. Ми за допомогою Інструментів Google для веб-майстрів перевірили, що sitemap.xmlфайл було знято сьогодні та його оцінено ОК без помилок (зелена галочка).

alt текст

sitemap.xmlМістить список останніх 50000 питань на нашому сайті , які були задані. Наприклад, це питання ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... існує в sitemap.xml...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

Пошук "Як побачити кінець довгого ланцюга символічних посилань" дає лише один результат на upithub.com, який викреслює наші дані (зовсім інша проблема).

Ви можете збільшити кількість підрахунку питань і здійснити точний пошук назви питання, і ви побачите, що ця модель зберігається.

Ці URL-адреси містяться в sitemap.xml, але вони не відображаються в індексі Google - і все ж вони відображаються на сайтах, які викреслюють наші дані про творчі спільноти. Чому це було б?


5
Ви завжди можете запитати на центральних форумах для веб-майстрів google. google.com/support/forum/p/Webmasters?hl=en
Алекс Чорний

Щось точно не так. ЦЕ питання вже індексовано в Google, але пов'язане питання щодо суперпользователя STILL не відображається в індексі.
Майкл Прайор

Джефф може подумати про те, щоб просто запитати у Метта Кеттса. Я кілька разів бачив, як вони спілкуються між собою у Twitter. Зазвичай він досить готовий допомогти.
Media Virtuosi

3
FWIW В даний час ми спостерігаємо деякі проблеми з індексуванням нового вмісту на деяких сайтах. На наших довідкових форумах на сайті google.com/support/forum/p/Webmasters/… є нитка про це. Здається, URL-адреса, яку ви згадали, впливає. Я думаю, що це буде вирішено найближчим часом, але немає доступних часових рамок. Дякую за Ваше терпіння.
Джон Мюллер

1
Схоже, це вирішено зараз :-). Я спробував кілька нових питань із сайту, і всі вони були проіндексовані. Вуто!
Джон Мюллер

Відповіді:


10

Схоже, що у Google на цьому тижні були проблеми з технічним скануванням, які виглядають надзвичайно схоже на те, що ми відчували:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Здається, ніхто не застрахований від проблеми індексації Google, яка має безліч власників сайтів. Блоги та великі та маленькі веб-сайти не індексуються так швидко, як зазвичай - якщо вони взагалі індексуються.

...

Джон з Google відповів на тему на форумах для веб-майстрів:

Щоб було зрозуміло, проблеми з цієї теми, які я детально розглянув, не пов'язані зі змінами в нашій політиці або змінами в наших алгоритмах; вони пов’язані з технічною проблемою з нашої сторони, яка буде видимо вирішена якнайшвидше ( можливо, це може зайняти до декількох днів, щоб бути видимими для всіх сайтів)


7

Google не надає жодних пропозицій і не гарантує, що сторінки в мапі сайту будуть індексовані.

Мій досвід полягав у тому, що для відображення сторінки потрібно пов’язати (зі сторінки певного органу). Чи пов’язана ця сторінка / питання безпосередньо / опосередковано зі сторінкою з якоюсь владою?

Наприклад, якщо домашня сторінка superuser.com (яка, імовірно, має багато посилань), безпосередньо пов'язана з цим питанням або посилається на неї опосередковано через ряд інших сторінок, то можна очікувати, що вона буде індексована.

Від google:

Google не гарантує, що ми скануватимемо чи індексуватимемо всі ваші URL-адреси. Однак ми використовуємо дані у вашій мапі сайту, щоб дізнатися про структуру вашого веб-сайту, що дозволить нам покращити графік роботи сканерів та покращити роботу над веб-сайтом у майбутньому. У більшості випадків веб-майстри отримають вигоду від подання Sitemap, і ні в якому разі ви не будете штрафовані за це.

http://www.google.com/support/webmasters/bin/answer.py?hl=uk&answer=156184


4
Суперусер повинен мати достатню кількість посилань та PR, щоб отримати ці сторінки з індексуванням мапи сайту чи без нього. І незначні сторінки постійно перераховуються. Насправді вони складають більшість індексу. Я підозрюю, що винуватцем є щось інше.
Джон Конде

Погоджено, на сайті багато PR та посилань. Але чи є ймовірність, що на розглянутій сторінці немає посилань? Якщо superuser.com (випадково) не посилається на цю сторінку, то що це говорить про Google? там сказано, що сторінка не важлива.
Алекс Блек

2
Сторінка, безумовно, пов'язана з головної сторінки та продовжує пов'язуватися з низкою інших сторінок. Сайти SE дуже важкі для перехресної зв'язку.
Кевін Монтроуз

1
Одного разу вчора одним із моїх звернень до тестового питання стала домашня сторінка superuser.com - із цільовою URL-адресою, що видно на ній, навіть у кеші Google! І все ж саме питання не було індексовано. Дуже дивно.
Джефф Етвуд

2
абсолютно - натисніть на вкладку «ГОРЯЧ» на домашній сторінці або на вкладку ТИЖЕННЯ або МІСЯЦЬ. Тут же ..
Джефф Етвуд

3

Я думаю, що в Google може бути важко індексувати ваші веб-сторінки, 50 000 - це багато. Тож моєю пропозицією було б поділити вашу мапу сайту на такі шматочки

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Якщо ви поділите, вам буде більше шансу індексувати ці 50 000 URL-адрес.

Пояснення проблеми на Sitemaps.org

Ви можете надати кілька файлів Sitemap, але кожен файл Sitemap, який ви надаєте, повинен мати не більше 50 000 URL-адрес і не повинен перевищувати 10 МБ (10 445 760 байт). Якщо ви хочете, ви можете стиснути файли Sitemap за допомогою gzip, щоб зменшити вимогу пропускної здатності; однак файл мапи після одноразового стискання не повинен перевищувати 10 Мб. Якщо ви хочете перерахувати більше 50 000 URL-адрес, ви повинні створити кілька файлів Sitemap.

Якщо ви надаєте кілька Sitemap, вам слід перелічити кожен файл Sitemap у файлі індексу Sitemap. Файли покажчиків Sitemap не можуть містити більше 50 000 мап сайтів і не повинні перевищувати 10 Мб (10 445 760 байт), і їх можна стискати. Ви можете мати кілька файлів індексу Sitemap. Формат XML файла індексу Sitemap дуже схожий на формат XML файлу Sitemap.

http://sitemaps.org/protocol.php


2
Мапи сайту на 50 000 сторінок дуже поширені. Насправді хтось нещодавно опублікував скріншот із свого облікового запису веб-майстрів, на якому показано, що Google проіндексував майже всі 50000 цих сторінок. І я підозрюю, що суперперукар є більш популярним (наприклад, має кращу популярність посилань), ніж інший сайт.
Джон Конде

1
"У вас є понад 50 000 URL-адрес у списку. Це максимум, що може містити одна карта сайту." sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Джефф Етвуд

1
Якщо у вас є кожен файл Sitemap для кожного дня, вони ніколи не змінюються після закінчення дня, так що Sitemap не доведеться знову оприлюднювати, вони можуть сканувати посилання, які вони вже індексували для змін, тому Google не повинен перебирати 50 000 URL-адрес щодня, щоб побачити, які старі, а які нові.
Севки

@sevki, найдавніше 50,001-е запитання до ДАТИ ДІЯЛЬНОСТІ (нові відповіді, редагування та ін. нарікають цю дату) не буде в мапі сайту. Майте на увазі, що у супервайзера всього 55 тис. Запитань.
Джефф Етвуд

@Jeff, але SO.com має 1,014,782, а 964,782 не є в мапі сайту, тому Google або Bing не знає, коли вони востаннє змінені. Це не збільшує ваші сканування. у будь-якому разі я не хочу дратувати просто намагатися допомогти, я надіслав вам електронний лист із ще деякими деталями.
Севки

2

Схоже, Google заявляє, що 46 514 поданих посилань є в індексі. Чи може це бути проблемою з (ненавиджу це говорити), але з ранжуванням сторінки? Сайти для вискоблювання, можливо, роблять кращу роботу з перехресними зв'язками тощо і займають вище. Просто думка.

Цей веб- сайт пошуку : superuser.com Як побачити кінець довгого ланцюга символічних посилань, також здається, що ви правильно отримуєте файл sitemap.xml, хоча і не повертає очікуваних результатів.


Цей сайт скребки надає атрибут superuser.com як оригінальний автор (хоча вони можуть бути більш чіткими щодо цього), тому Google повинен знати, що вони є оригінальним автором вмісту, і надавати їм перевагу над сайтами скребки.
Джон Конде

@john правильно, нам потрібна атрибуція з дотриманням, як це зафіксовано на blog.stackoverflow.com/2010/08/defending-attribution-required
Джефф Етвуд

цей кешований файл Sitemap є "як він з'явився 17 жовтня 2010 05:40:35 GMT", 4 дні тому на момент написання цього запису, тому його не так багато. Я помітив кілька URL-адрес у кешованому sitemap.xml, і вони існують як сторінки запитів і в Google.
Джефф Етвуд

@john Ви можете навести приклад того, як вони дають атрибуцію. Thx
Грег Б

@Greg, просто шукайте логотип суперрусера
Джон Конде

2

З цим типом речі є багато потенційних відповідей.

Я б почав із запитання, скільки у вас насправді сторінок. (ви швидко подали 50 000 URL-адрес: superuser.com показує 125 000 проіндексованих. Ви думаєте, що у вас є лише 50K URL-адрес, і ви подаєте їх усі, але Google знаходить 2-3 копії кожної сторінки? Або, можливо, у вас є 1Mil URL-адреси і лише 12,5 % отримують індексацію) отримання великої картини допомагає направити, де шукати проблеми.

Якщо з першого кроку нічого не здається, я перейду до контенту, це виглядає так, що QH має набагато більше вмісту на своїй сторінці та пов’язує багато інших "ресурсів", незважаючи на те, що весь їхній вміст скреблено, можливо, Google вважає їх сторінка корисніша, оскільки вони надають більше ресурсів / інформації користувачеві. Якщо вони вважатимуться авторитетом, а весь ваш вміст буде таким самим, можливо, Google не індексує ваш, навіть якщо ви оригінал.

Якщо ви переконані, що це не проблема, побудуйте якісь посилання на неї високої якості, опублікуйте це запитання в деяких популярних блогах співробітників або попросіть деяких друзів вести блог про це, можливо, якщо у вас є друзі з SEO, які ведуть популярні блоги, вони написали б тематичний приклад про це тощо.

Якщо у вас є багато надійних посилань, і все ще не отримуєте індексований вигляд з причин, це може бути санкціоновано (у більшості випадків це не буде проблемою, але це ніколи не боляче перевірити).

Якщо нічого з цього не працює, то 9 разів з 10 - це просте технічне питання, яке не помічено (виключення роботів чи щось подібне).

Якщо у вас все ще немає відповіді після проходження цього питання, попросіть Google і сподівайтеся, що вони отримають вам відповідь.


0

Щойно вчора було задане питання - дайте шанс googlebot, ви не єдиний сайт в Інтернеті, який йому доводиться сканувати, знаєте :)

Якщо питання, як правило, індексуються протягом дня або близько того, а тиждень проходить, а це все ще не індексується, то я можу бути занепокоєний. Але точно не через 1 день.


1
Зазвичай вони з’являються протягом години. Тож я згоден, я повинен приділити йому час, але відносно його звичайної частоти ... у мене є.
Майкл Прайор

@michael переконайтеся, що ви порівнюєте яблука з яблуками - Google, схоже, індексує stackoverflow.com набагато вищою, ніж інші наші сайти.
Джефф Етвуд
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.