Googlebot надсилає тисячі запитів до нашого локатора карт та використовує квоту API

На сайті нашого клієнта є сторінка локатора магазину. Кінцевий користувач вводить свій поштовий індекс та радіус пошуку, і ми відображаємо результати на карті Google.

Нещодавно ми почали помічати, що на сайті потрапляє межа вільного пошуку карт (приблизно 25 000 за 24 години) без помітного збільшення загального трафіку. Я ввімкнув кілька додаткових журналів, щоб спробувати знайти проблему.

Виявляється, Googlebot просуває тисячі пошуків на цій карті. Це невеликий зразок:

2017-07-09 23: 56: 22,719 [7] INFO ShopLanding - [Нитка 41] Карти Google: пошук G23 отримав ОК від 66.249.66.221
2017-07-09 23: 56: 35,469 [7] INFO ShopLanding - [Нитка 10] Карти Google: пошук CA6 отримав ОК від 66.249.66.221
2017-07-09 23: 57: 24,563 [7] INFO ShopLanding - [Нитка 48] Карти Google: пошук BN14 отриманий з 66.249.66.223
2017-07-09 23: 58: 00,970 [7] INFO ShopLanding - [Thread 42] Карти Google: пошук CB4 отримав ОК від 66.249.66.221
2017-07-09 23: 58: 13,064 [7] INFO ShopLanding - [Thread 54] Карти Google: пошук DY9 отримав ОК від 66.249.66.221
2017-07-09 23: 59: 18,722 [7] INFO ShopLanding - [Нитка 59] Карти Google: пошук TS3 отримав ОК від 66.249.66.223
2017-07-09 23: 59: 53,223 [7] INFO ShopLanding - [Thre 49]] Карти Google: пошук S45 отримав ОК від 66.249.66.221

Чи є спосіб, який я можу перешкодити Google просуватися через так багато запитів? Це з'їдає значну частку безкоштовної надбавки. Здається, що законних пошукових запитів менше 200 на день.

EDIT

Сайт побудований на C # ASP.NET. Для пошуку в магазині використовується POST, URL-адреса не змінюється при надсиланні. Я можу розмістити зразок журналів IIS завтра вранці, щоб підтвердити цю поведінку.

web-crawlers google-maps

— Бургі
джерело

Чи мають елементи, які Googlebot шукає, якісь значення? "G23" і "CA6" для мене нічого не означають. Googlebot зазвичай не подає випадкові дані у форми. Зазвичай лише сканує параметри, що випадають, попередньо заповнені дані або посилання на запит. Чи є ці значення на сайті десь як список? Крім того, як виглядають ваші URL-адреси для цих запитів?

— Стівен Остерміллер

@StephenOstermiller - це часткові поштові індекси Великобританії, зокрема ідентифікатор району. Це повинні бути POSTзапити для AJAX, я перевіряю журнали IIS.

— Бургі

У бік: Що це за "безкоштовний пошук на карті"?

— MrWhite

@SamWeaver IP вирішується як бот Google, і відповідний запис журналу IIS має Googlebot UserAgent. Справді, обидва з них можуть бути підробленими.

— Бургі

Чи використовує ваш локатор магазину рядок запиту (GET-запит)? Що таке приблизна структура URL-адреси сторінки локатора вашого магазину, чи змінюється вона (рядок запиту) при пошуку користувачів? Якщо ви можете детальніше пояснити функціональну / технологічну сторону, тоді на неї можна відповісти більш ефективно.

— TopQnA

Щоб зупинити пошук googlebot за допомогою googlemaps, покладіть файл, названий robots.txtу корені вашого домену. наприклад https://www.wikipedia.org/robots.txt

Зразок robots.txt:

User-agent: Googlebot
Disallow: /search-store/

Де / search-store / - це сторінка, яка надсилає запит на карти Google.

Якщо це трапляється щось інше, ніж Googlebot, ви можете вимкнути всі сканування на цій сторінці за допомогою:

User-agent: *
Disallow: /search-store/

Зауважте, що це не зупинить неправильні сценарії, які ігнорують robots.txt.

— сатибель
джерело

Зауважте, що ви не хочете, щоб Google та інші пошукові системи рекламували ці сторінки!

— Арі Давідов

Я не впевнений, що блокування всього пошукового магазину є правильним варіантом, нам може знадобитися зрозуміти рядок запиту тощо. Значить, нехай Google читає, але не надсилайте занадто багато запитів. Блокування всього магазину пошуку має бути останнім варіантом.

— TopQnA

Обмеження швидкості пошуку може бути іншим варіантом, скажімо, після 25 пошукових запитів, вам потрібно охолонути протягом години між кожним пошуком. Це зупинило б ботів і недобрих людей, але не постійних користувачів.

— сатибель

Якщо сторінка призначена лише для пошуку місця розташування магазину, я сумніваюся, було б корисно її індексувати в першу чергу. Це залежало б від структури сайту. Також robots.txt легше / швидше (тим самим дешевше) реалізувати як швидше виправити, ніж витратити кілька годин на обмеження швидкості. @TopQnA

— satibel

Ну, місце розташування магазину є дуже важливим для користувача, і більшість людей шукають магазин із посиланням на місцезнаходження в Google, і якщо локатор магазину може створити карту з корисною інформацією з унікальною URL-адресою для кожного магазину, то це було б набагато кориснішим для користувач. І саме тому блокування має бути останнім варіантом.

— TopQnA