Звідки береться параметр URL-адреси "? Chocaid = 397"?


9

В Інструментах для веб-майстрів Google я помітив, що моя перша сторінка була проіндексована два рази:

  • example.com/
  • example.com/?chocaid=397

Я знаю, що я міг би це виправити за допомогою типу посилання canonical, але мені цікаво: звідки цей параметр?

Існують різні сайти, на яких сторінки проіндексовані саме цим параметром / значенням: https://duckduckgo.com/?q=chocaid%3D397 .

Я шукав подібності між цими сайтами. але не змогли знайти переконливого: Часто це головна сторінка, але не у кожному випадку. Деякі є NSFW, але не всі. Якщо URL-адреса одного домену має цей параметр, його часто мають і інші піддомени цього ж домену.

Приклади

Запис у Вікіпедії

введіть тут опис зображення

Microsoft Codeplex

введіть тут опис зображення


Чи є в Інструментах для веб-майстрів Google (або у ваших реєстраційних журналах) вказівка ​​щодо того, на якій сторінці може бути посилання на цю URL-адресу?
MrWhite

@ w3d: Я не маю доступу до журналів. У GWT вона була вказана у розділі " Поліпшення HTML " → "Повторні назви сторінок". Тому я боюся, що не можу отримати жодної інформації про реферати.
unor

Мене просто цікавило, чи є щось у розділі Трафік> Посилання на ваш сайт> Ваш найбільш пов’язаний вміст> Більше (щоб отримати всі пов’язані сторінки). Щоб ?chocaid=397отримати індексацію, то, мабуть, щось пов’язує з цим, щоб Google в першу чергу знаходив посилання?
MrWhite

@ w3d: Ах, бачу. На жаль, даних для цього звіту все ще немає (можливо, тому, що я використовую GWT лише кілька днів).
unor

Не впевнений, чи це допомагає, але число 397 має щось спільне з хешами (див. Тут і тут ). Я не впевнений, чи має це щось спільне з цим питанням, але це ?chocaid=397може бути якась спроба возитися з хешами (я не знаю багато про це, тому я не впевнений у цьому). Також це чудове питання.

Відповіді:


1

Наскільки новий ваш домен? Можливо, це був популярний запит на старому домені, і тому ви все ще отримуєте "відвідувачів". Чи відповідає ця карта дійсною сторінкою або 404? Якщо ви отримуєте там багато звернень, і це 404, то я переробляю його (використовуйте .htaccess) на вашу домашню сторінку чи щось.


1
Я ще не помітив відвідувачів; Я побачив сторінку, індексовану Google. Він відображає ту саму титульну сторінку (як би параметр був опущений). Я знаю, що я міг би переадресувати його або використати canonical, але це питання стосується походження цього параметра.
unor

2
Але це не пояснює, чому той самий параметр URL з’являється в результатах пошуку для багатьох інших доменів.
MrWhite

1

Можливо, Googlebot намагається отримати доступ до jQuery / Javascript і сканувати все, що може. Тут нещодавно з’явилося повідомлення про те, що хтось просить про допомогу, оскільки Googlebot сканує невірні URL-адреси на своєму сайті. Джон М відповів про те, як Googlebot може шукати більше URL-адрес для сканування зі скриптів на своєму сайті. Він працює в Google Webmaster Tools. Ви майже відповіли на власне запитання, встановивши канонічний тег.


1

Поки у мене немає однозначної відповіді, я знайшов кілька речей, вивчаючи це, що може допомогти звузити це:

  • Посилання також з'являються у Бінга та Yahoo, тому це не має нічого спільного з Google.
  • Вони з'являються у вікі, блоги Tumblr, блоги Wordpress та інших сайтах, і тому вони не збираються додаватись через експлуатування в якесь конкретне програмне забезпечення.
  • Вони з’являються на деяких дуже якісних сайтах Tumblr, і тому навряд чи вони мали б рекламу, яка надходила б до них. Так само статті з Вікіпедії навряд чи будуть рекламовані через рекламні оголошення.

Я найкраще здогадаюся, що існує / був якийсь сайт скрепера, який додає цю URL-адресу до всіх знайдених посилань. Звичайно, зовнішні посилання здаються найбільш ймовірним поясненням того, звідки вони беруться, а каталоги малоймовірні через те, що вони додаються до цілком випадкових сторінок.


0

Це може бути від постачальника реклами, який у вас може бути, у мене така ж проблема, і єдине можливе місце, звідки вона походить, - це рекламодавець, який вводить деякі зловмисні програми через коди javascript.


Чи є у вас джерело / доказ для цього? Це означатиме, що Вікіпедія заражена цим, оскільки є деякі Вікіпедії, які індексуються цим параметром.
unor

Так, оскільки у мене є блог, який Google заблокував через це, і після вилучення винних оголошень вони почали видаляти блок
Raymund
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.