Приблизно з середини серпня 2014 року кілька серверів Google завантажують усі (дуже) великі бінарні файли на мій веб-сайт, приблизно раз на тиждень. Усі IP-адреси відображаються як належать Google, і виглядають так: google-proxy-66-249-88-199.google.com. Це GET-запити, і вони сильно впливають на трафік мого сервера.
До цього я не бачив жодного трафіку з цих IP-адрес проксі-серверів Google, тому це здається чимось відносно новим. Я бачу всі види трафіку з інших IP-адрес Google, усі вони лише в googlebot та HEAD-запитах.
Я б не хвилювався з цього приводу, крім того, що всі ці файли завантажуються Google приблизно щотижня або близько того. Використовувана пропускна здатність починає надмірно збільшуватися.
Я гадав, що оскільки багато цих файлів є виконавчими файлами Windows, можливо, Google завантажує їх, щоб виконати сканування шкідливих програм. Навіть якщо це правда, чи справді це має відбуватися щотижня?
Приклад трафіку з IP-адрес проксі google у листопаді:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Оновлення №1: я забув зазначити, що ці файли вже є у файлі robots.txt сайту. Щоб зробити так, щоб конфігурація robots.txt працювала належним чином, я також використовував тестер robots.txt в Інструментах Google для веб-майстрів, який показує, що файли безумовно блокуються для всіх ботів Google, за винятком: Adsbot-Google. Я не впевнений, про що йдеться. І я шукав у Google деякі файли, і вони НЕ відображаються в результатах пошуку.
Оновлення №2: Приклад: між 5:12 ранку та 5:18 ранку PST 17 листопада близько півдесятка IP-адрес (усі google-проксі) зробили GETs для всіх розглянутих бінарних файлів, загалом 27. 4 листопада між 14:09 та 14:15 за тихоокеанським часом ті самі IP-адреси зробили те саме.
Оновлення №3: На даний момент здається зрозумілим, що хоча це дійсні IP-адреси Google, вони є частиною проксі-сервісу Google, а не частиною веб-сканування Google. Оскільки це проксі-адреси, неможливо визначити, звідки фактично походять запити GET, чи надходять вони з одного місця чи з багатьох. Виходячи з спорадичного характеру GET, не здається, що відбувається щось жахливе; ймовірно, просто хтось вирішив завантажити всі бінарні файли під час використання проксі-сервісу Google. На жаль, ця послуга здається повністю недокументованою, що не допомагає. З точки зору адміністратора сайту, проксі-сервери досить дратують. Я не хочу їх блокувати, оскільки вони мають законне використання. Але їх також можна зловживати.