Чому Google завантажує двійкові файли з мого веб-сайту та використовує пропускну здатність?

Приблизно з середини серпня 2014 року кілька серверів Google завантажують усі (дуже) великі бінарні файли на мій веб-сайт, приблизно раз на тиждень. Усі IP-адреси відображаються як належать Google, і виглядають так: google-proxy-66-249-88-199.google.com. Це GET-запити, і вони сильно впливають на трафік мого сервера.

До цього я не бачив жодного трафіку з цих IP-адрес проксі-серверів Google, тому це здається чимось відносно новим. Я бачу всі види трафіку з інших IP-адрес Google, усі вони лише в googlebot та HEAD-запитах.

Я б не хвилювався з цього приводу, крім того, що всі ці файли завантажуються Google приблизно щотижня або близько того. Використовувана пропускна здатність починає надмірно збільшуватися.

Я гадав, що оскільки багато цих файлів є виконавчими файлами Windows, можливо, Google завантажує їх, щоб виконати сканування шкідливих програм. Навіть якщо це правда, чи справді це має відбуватися щотижня?

Приклад трафіку з IP-адрес проксі google у листопаді:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Оновлення №1: я забув зазначити, що ці файли вже є у файлі robots.txt сайту. Щоб зробити так, щоб конфігурація robots.txt працювала належним чином, я також використовував тестер robots.txt в Інструментах Google для веб-майстрів, який показує, що файли безумовно блокуються для всіх ботів Google, за винятком: Adsbot-Google. Я не впевнений, про що йдеться. І я шукав у Google деякі файли, і вони НЕ відображаються в результатах пошуку.

Оновлення №2: Приклад: між 5:12 ранку та 5:18 ранку PST 17 листопада близько півдесятка IP-адрес (усі google-проксі) зробили GETs для всіх розглянутих бінарних файлів, загалом 27. 4 листопада між 14:09 та 14:15 за тихоокеанським часом ті самі IP-адреси зробили те саме.

Оновлення №3: На даний момент здається зрозумілим, що хоча це дійсні IP-адреси Google, вони є частиною проксі-сервісу Google, а не частиною веб-сканування Google. Оскільки це проксі-адреси, неможливо визначити, звідки фактично походять запити GET, чи надходять вони з одного місця чи з багатьох. Виходячи з спорадичного характеру GET, не здається, що відбувається щось жахливе; ймовірно, просто хтось вирішив завантажити всі бінарні файли під час використання проксі-сервісу Google. На жаль, ця послуга здається повністю недокументованою, що не допомагає. З точки зору адміністратора сайту, проксі-сервери досить дратують. Я не хочу їх блокувати, оскільки вони мають законне використання. Але їх також можна зловживати.

google proxy bandwidth

— boot13
джерело

Хороше питання. Я його проголосував! Ви хочете заблокувати їх за допомогою robots.txt точно. Чому Google завантажує виконувані файли - це не за мене. Вам теорія здається непоганою, але чомусь через частоту я не впевнений. Це здається досить дивним. Вони здаються дійсними IP-адресами Googlebot, хоча у моєму списку немає google-proxy-66-102-6-104.google.com.

— closetnoc

Я забув згадати, що ці файли вже є у файлі robots.txt сайту. Дивіться оновлення №1 вище.

— boot13

Ти розгубився. У мене зараз підрядник очікує якусь хвилину, тому мені доведеться подумати над цим. Google займається кумедними справами з розподілом їхніх доменних імен та IP-адрес, а також відбулося певне перекриття різних служб Google, включаючи хостинг та інші, де люди-боти можуть з’являтися в IP-адресі простору Google, проте я не бачив їх, щоб вони використовували IP-адресу Googlebot. простір. Я хотів би, щоб Google виділив чіткий простір для різних пошукових процесів без перекриття або з невеликим перекриттям, щоб системи безпеки могли належним чином довіряти цим IP-адресам.

— closetnoc

Я зробив кілька досліджень з цього питання і виявив кілька цікавих тонких, таких як:

1. Це підроблений сканер? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Висновок від користувача:

Ці "сканери" не є сканерами, але є частиною попереднього попереднього перегляду веб-сайтів, що використовується в пошуковій системі Google.

Я спробував це, щоб показати один із моїх веб-сайтів у попередньому перегляді, і так, ось він отримав повідомлення заблокованогоIP.

Якщо ви хочете, щоб користувачі могли переглядати попередній перегляд вашого веб-сайту, ви повинні прийняти ці "сканери".

Як говорили інші: "кореневий домен цієї URL-адреси - google.com, і його не можна легко підробити".

Висновок: Ви можете довіряти цим ботам чи сканерам, і він використовується для показу попереднього перегляду в пошуку Google.

Ми знаємо, що попередній перегляд не завантажує ваші файли, тому перейдемо до питання 2.

2. Це частина служб Google? -> Це проксі-сервер Google - підроблений сканер: google-proxy-66-249-81-131.google.com?

Висновок:

Я думаю, що деякі користуються сервісами Google (наприклад, Google translate, Google mobile тощо) для доступу до (заблокованих) веб-сайтів (у школах тощо), а також для DOS-атак та подібної діяльності.

Я здогадуюсь про це те саме, що вище. Хтось намагається використовувати службу Google для доступу до ваших файлів, наприклад, перекладача.

Якщо, як ви кажете, файли robots.txt вже заблоковані, це може бути лише запит вручну.

РЕДАКТУВАННЯ: Для широкого вирішення коментарів до ОП:

Чи можуть сканери ігнорувати robots.txt? Так. Ось список, я не думаю, що Google це робить, це означає, що це можуть бути інші боти, які використовують проксі-сервери Google.

Чи може це бути поганим ботом? Так, і для цього рекомендую:

.htaccess заборона:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Цей код може заборонити IP-адреси або Користувацького агента.

Або використовуйте Павукову пастку, представлену тут

Я вважаю, що це запит вручну.

— нунорбатіста
джерело

Я також бачив ці відповіді, але, схоже, вони не вирішували мого конкретного питання. Можливо, ви маєте рацію, що Google Proxy якимось чином зловживають, і в такому випадку я, швидше за все, заблокую його повністю, що є таким кульгом. Я розумію, що robots.txt полягає в тому, що програмне забезпечення сканера може вибрати його ігнорувати. Дружні боти повинні його шанувати, і більшість це робить, але проксі-сервери (я думаю) різні.

— boot13

@ boot13 Будьте обережні, хоча. Це дійсні IP адреси Googlebot. Тож якщо ви заблокуєте його, заблокуйте його лише для цих файлів. Якщо припустити, що ви використовуєте Apache, ви повинні зробити це за допомогою .htaccess. Але це може спричинити інші проблеми, тому обов'язково зверніть увагу на Інструменти Google для веб-майстрів для повідомлень.

— closetnoc

@ boot13 Я оновив свою відповідь. Чи можете ви перевірити, чи є доступ в один день / годину чи випадкові?

— нунорбатіста

@nunorbatista: вони здаються випадковими. Я кілька разів оновлював своє запитання.

— boot13

@ nunorbatista: див. Оновлення №3 вище. Це не Googlebot чи інший сканер, це проксі-сервіс Google. Це не пов’язано з попереднім попереднім переглядом веб-сайту Google. Схоже, один або кілька людей просто завантажили двійкові файли через Google Proxy, можливо, щоб обійти локальний блок або обмеження. Пропозиція про пастку павука навряд чи допоможе, оскільки трафік, очевидно, не є ботом. Я хотів би заблокувати IP-адреси Google Proxy для доступу до папки, що містить двійкові файли; Я спробую використовувати код htaccess, але, звичайно, завантажувач завжди міг перейти на інший проксі, тому це може бути безглуздим.

— boot13