Чому Google індексує сторінки із рядком запиту utm_campaign


9

Нещодавно я помітив, що Google індексує URL-адреси, що містять utm_campaign, utm_source та utm_medium рядки аргументів рядка. В результатах Google показує URL-адреси з цими рядками запитів, а не канонічною URL-адресою:

utm_campaign додано до URL-адреси

Я розумію, що це може бути проблемою "копії вмісту", але я використовую link rel=canonicalтег на всьому веб-сайті. Як один із прикладів:

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

Знімок екрана канонічної мітки

Моє сподівання полягає в тому, що Google повинен використовувати канонічну URL-адресу для індексації. Що я роблю неправильно?


2
Навіть без канонічного тегу, Googlebot зазвичай ігнорує параметри UTM, оскільки знає, що вони використовуються лише для відстеження. Я ніколи не бачив їх індексованих раніше, особливо не з канонічним.
Стівен Остерміллер

4
FWIW site:stackexchange.com inurl:utm_campaignтакож повертає подібні результати (дещо ширше). Також зауважте, що site:пошукові запити часто повертають неканонічні URL-адреси в результатах, які зазвичай не повертаються при "звичайних" пошуках. Однак, вищезазначені URL-адреси, здається, також повертаються в "звичайних" пошуках.
MrWhite

Відповіді:


3

Переглядаючи ваш веб-сайт таким, яким він є зараз, я не надто впевнений, чи це вже проблема / зараз.

Проблема не є внутрішнім зв’язком на вашому веб-сайті із включенням параметрів UTM (як підказує інше питання).

Схоже, якийсь процес, який вам належить ділитися вмістом свого веб-сайту в соціальних мережах, залишає параметри UTM в URL-адресах і ділиться тими URL-адресами, які в певний момент призвели до їх індексації.

Рідко це трапляється, але раніше це траплялося з багатьма іншими сайтами. Той факт, що лише три сторінки, проіндексовані цими параметрами, свідчить про те, що це не є серйозною проблемою, ані загальноміською.

Ось такі кроки, які ви можете зробити, щоб допомогти викорінити це:

1. Вкажіть на своїх сторінках канонічну URL-адресу

Ви вже робите це, і реалізація правильна. Це забезпечить, що лише вказана канонічна URL-адреса буде мати вагу в пошукових системах. Імовірно, це було завжди, але якщо ні, то це може пояснити, чому існують деякі старі екземпляри сторінок, які все ще індексуються параметрами UTM.

Правильна реалізація канонічних URL-адрес

2. Доручіть Google не індексувати параметри UTM у пошуковій консолі

У випадку, якщо деякі URL-адреси індексуються параметрами UTM (наприклад, у вашому випадку), параметр URL-адреси повинен з’являтися як виявлений у розділі "Сканування> Параметри URL-адреси" в консолі пошуку Google для вашого домену (див. Нижче).

Параметри URL-адреси UTM у пошуковій консолі Google

Навіть якщо параметри UTM не відображаються, ви можете "Додати параметр", щоб створити їх.

Просто виберіть No: Doesn't affect page content (ex: tracks usage)(відомий як "Пасивні параметри"), і Google зазвичай сканує лише одну URL-адресу з певним значенням параметра .

3 Вимкніть параметри URL у вашому robots.txt

Це заблокує Google від індексації вмісту цих URL-адрес, але не власне самих URL-адрес (вони все ще можуть відображатися в результатах пошуку, але просто опускають опис, як показано нижче).

Індексовану сторінку заборонено в robots.txt

Просте додавання чогось подібного вирішить це з robots.txt:

Disallow: /*?utm=*

Висновок

Кроки №1 та №2 повинні бути виконані як обережність та "найкраща практика" так чи й крок №3 на додаток до кроків №1 та №2, можливо, (оскільки вони не будуть ефективними самостійно).

У межах консолі пошуку Google також є можливість (тимчасово) видалити URL-адреси. Це особливо корисно, якщо деякі вперті сторінки все ще проіндексовані, але ви знаєте, що першоджерело проблеми було вирішено, і цього засобу має бути достатньо, щоб позбавити їх раз і назавжди з результатів пошуку.

Я не включив це як крок вище, оскільки, незважаючи на те, що раніше це досліджував, я не можу згадати, чи підтримуватиме він URL-адреси з параметрами [потрібне цитування]. Я колись знав відповідь, але моя пам’ять провалює мене саме з цього приводу.

Детальніше про видалення URL-адрес з Google .


1
Але якщо ви заблокуєте сканування цих URL-адрес, використовуючи robots.txt(# 3), чи не блокуєте ви також відстежувати ці кампанії ? ... а також запобігти прочитанню вбудованого канонічного тегу (# 1)?
MrWhite

Я погоджуюся з тим, що w3dk говорить про robots.txt. Якщо що-небудь використовувати noindex: /*?utm=*в robots.txt.
Стівен Остерміллер

2

Схоже, ви використовуєте ці посилання всередині вмісту вашого веб-сайту, щоб зв’язувати сторінки разом.

Щоб переконатися, що Google не індексує, ви можете додати rel="nofollow"до цих посилань на своєму веб-сайті та заблокувати ці парами з файлу robots.txt:

Disallow : /*utm_campaign

Хороший улов, що їх використовують для внутрішніх посилань. Це пояснює відмінність від більшості сайтів, де вони, як правило, використовуються лише у вхідних посиланнях.
Стівен Остерміллер

Насправді URL-адреси utm_campaign додаються Buffer.com - наприклад, вони виглядають як "utm_source = plus.google.com & utm_campaign = буфер". Я не думаю, що я використовую ці посилання де-небудь на веб-сайті.
Брендон

1

Ви перевірили, чи є ваша канонічна URL-адреса індексованою чи ні? Якщо канонічна URL-адреса була проіндексована, то турбуватися нема про що.

Ви можете спробувати Інструменти Google для веб-майстрів та змінити, як Google обробляє параметри URL-адреси тут .


1
Для деяких URL-адрес індексується лише URL-адреса utm_campaign. На інших сторінках обидві URL-адреси відображаються в індексі. Вчора я використовував інструмент "Витягнути" як сканування однієї URL-адреси (із рядком запиту utm_campaign) - ця URL-адреса, здається, зникла, а канонічна URL-адреса зараз індексується.
Брендон

Також статистика сканування ( скріншот ), схоже, показує сторінки, які потребують тривалого часу для сканування (в середньому 2.3s). Я не впевнений, чи це поширена проблема, але, можливо, у Google є деякі проблеми із скануванням сайту.
Брендон

Ви також можете зробити невелику очистку, коли відвідувач приземлиться на ваш веб-сайт. Використовуйте посилання Fresh URL скрипт для динамічного видалення яких - або параметрів UTM з URL після отримання вигоди від нього. По-друге, додайте параметри URL ...
Muhammad usman
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.