Чому Google Webmaster Tools сканує недійсні URL-адреси та показує 500 помилок?

11

Інструменти Google для веб-майстрів повідомляють про 12k + 500 помилок. Eeek!

Жодна URL-адреса не є дійсною - вони містять www.youtube.com. По-перше, чому Google сканує ці URL-адреси, якщо їх немає? Я надав мапу сайту, і вони, звичайно, не в мапі.

У мене немає роботи robots.txt, яка б щось блокувала. Я перевірив наявність недійсних переадресацій - жодних, і перевірив чи не закриті теги чи щось, що випадково б запустило www.youtube.com в URL - немає.

У кожній з "посилань на" посилальна URL-адреса також є невірною URL-адресою, в якій є www.youtube.com. Звіт Google Tools не повідомляє про зловмисне програмне забезпечення, і я не можу перевірити журнали сервера, оскільки хост не надає мені доступу.

Дійсно застряг !! Будь-які ідеї високо оцінені!

google-search-console http-code-500

— Амос Кейн
джерело

Чи можете ви опублікувати кілька прикладів, будь ласка?

— ionFish

Ваш веб-сайт Wordpress чи інша платформа блогу?

— Ubique

3

Якщо ви бачите помилки HTTP 500 (помилки сервера) для недійсних URL-адрес, у вас, ймовірно, є проблема у налаштуваннях - недійсні URL-адреси повинні повертати 404 або 410.

— Джон Мюллер

8

Існують (принаймні) дві поширені причини, через які дивні та невмілі URL-адреси можуть відображатися як помилки сканування в Інструментах для веб-майстрів.

Перша можливість полягає в тому, щоб хтось скопіював ваші сторінки (або деякі інші сторінки, які посилаються на ваші) та керував ними посиланнями в процесі. Це трапляється частіше, ніж можна подумати; див., наприклад, шосте запитання в цій публікації блогу Google для веб-майстрів .

Інша можливість полягає в тому, що сам Googlebot намагається дотримуватися того, що, на його думку, є посиланнями JavaScript і створює безлад . Зазвичай ви можете розказати ці два випадки, відвідавши сторінку, що пересилається (яка повинна існувати та бути доступною, якщо Google встиг би просканувати її для початку) та шукаючи назву цільової сторінки у своєму джерелі.

Так чи інакше, ви можете зробити дві речі: або просто проігноруйте посилання, або придумайте кілька правил перезапису, щоб спробувати зіставити порушені URL-адреси на робочі. Якщо ви бачите очевидний зразок в URL-адресах і знайомі з регулярними виразами, я рекомендую останній підхід - він очистить ваш список помилок сканування і, можливо, навіть дасть вам невеликий і досить ситний, але справжній приріст PageRank .

Третій варіант, якщо ви виявите, що хтось копіював ваш вміст без дозволу, - спробувати дозволити їх вилучити . Ви навіть можете надіслати скаргу (та / або офіційний запит на зняття) до свого хостинг-провайдера, якщо вважаєте це виправданим. Звичайно, враховуючи, що вони , мабуть, посилаються на ваш сайт, вам, можливо, не обов'язково здадуться, що варто докласти зусиль.

— Ільмарі Каронен
джерело

0

Google індексує сайт не відразу на всіх сторінках одночасно.

Індексація сторінок Google - найперше найвищий рівень Потім через кілька днів Google намагається проіндексувати глибше - другий рівень сторінок (сторінки, на яких Google знайшов посилання на сторінках першого рівня) тощо. Таким чином Google намагається проіндексувати кожну сторінку на сайті. Таким чином, Google створює ієрархічне дерево посилань, і Google знає, які сторінки пов'язані з кожною сторінкою.

Потім Google прийшов на кожну індексовану сторінку через деякий час і перевіряє, чи змінено вміст на сторінці. Інтервал індексації для кожної сторінки та кожного сайту базується на багатьох факторах.

Тож якщо ви видалите якусь сторінку та оновлюєте всі посилання на цю сторінку на всіх інших сторінках - Google це не знає негайно, і намагається проіндексувати видалену сторінку, оскільки планується індексувати цю сторінку за своїм графіком.

— вебвіталій
джерело