Це подія, яка швидко змінюється, на яку поки немає відповіді.
Будь ласка, не публікуйте свої висновки чи припущення як відповіді; зарезервуйте поле відповіді на те, коли у вас є відповідь.
Якщо у вас є щось нове, додайте його безпосередньо до питання.
З початку року я отримую багато трафіку з користувальницьким агентом:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
Мої журнали доступу показують 40% - 60% від цього агента користувача. Це дивно, тому що користувальницький агент заявляє про браузер Firefox 3.0.10 (хтось використовує цей браузер у 2012 році? Однозначно не 40% -60% відвідувачів на звичайному веб-сайті).
Крім того, журнали показують, що цей користувальницький агент запитував лише документ HTML і не посилався на активи, такі як файли images, css, js.
Я перевірив IP-адреси цих запитів (з цією UA). Він надходить з усього світу. Я визнав, що ці IP-адреси іноді мають мобільний користувальницький агент.
Тож я підозрюю, що це мобільний додаток, який робить багато "павукових запитів". Було б добре знати першопричину трафіку цього агента користувача.
Хтось може визначити першопричину?
За останні кілька тижнів ми визнали, що трафік з цього UA зменшився та збільшився інший трафік. Схоже, що бот / гусениця зараз використовує більш поширений UA, і тому його важче заблокувати. Я бачив, як хтось інший говорив, що у відповіді на це питання він видалявся, коли сервер за замовчуванням вирішив перевлаштувати це питання.
СТАРІ відповіді в якості посилання
Оновлення від Dee
Я запускаю власний веб-сайт із сильною торгівлею людьми, і я бачу абсолютно те саме в наших журналах apache протягом останнього місяця або близько того (я ще не мав можливості перевірити його назад). 40% усіх запитів - це відсоток, який я бачу, що очевидно.
І я також зауважив, що запити завжди кажуть, що запитуючий браузер не підтримує gzip-компресію - внаслідок цього всі запити веб-сторінок надсилаються нестисненими, а наше використання пропускної здатності проскакує по даху!
Але поки що я не міг визначити, що відбувається насправді - я все-таки підозрюю, що це може бути якийсь проксі-сервер або такий для мобільного пристрою, який надсилає підроблену рядок Useragent.
ВИДАЛЕНО ДО ДОДАТИ: Щойно зробили ще кілька досліджень і, схоже, це може бути антивірусне програмне забезпечення: http://www.webmasterworld.com/search_engine_spiders/4428772.htm
Оновлення від jamur21
Так, ми помітили подібний трафік на кількох сайтах.
Ми все ще шукаємо першопричину, але деякі з наших висновків включають:
Якщо це павук, він робить досить погану роботу. Здається, забивають лише одну або дві URL-адреси на домен протягом певного часу (можливо, пару годин), поки він не перейде до іншої URL-адреси. Вміст завжди є відносно "сучасним", що надає довіру до того, що Новини Google є чинником, як це розміщено у посиланні Ді, розміщеному у його / її відповіді (усі наші сайти - це сайти новин).
Хоча IP-адреси розповсюджуються географічно, для нас більшість з них, здається, розташовані поблизу початкового сайту (більшість наших сайтів - це місцеві інформаційні бюлетені, тому вони не отримують багато національного трафіку). Майже жоден запит не надходить із-за меж США. Знову ж таки, це надає довіру до URL-адрес, які отримують з Новин Google (я здогадуюсь, люди, які локалізували Новини Google за поштовим індексом, побачать наш вміст).
Більшу частину часу запити можуть бути списані як фоновий шум (хоч і особливо галасливий), але кілька разів на день ми будемо робити шип, і лише цей UA припадатиме ~ 100 мбіт / с, приблизно 15-30 хвилин.
На жаль, хоча Google News здається можливим вектором для виявлення цих URL-адрес, все, що ми бачили, є випадковим, і ми все ще не маємо жодного пістолета для куріння, як саме або чому ці URL-адреси забиваються.
Оновлення від затоки Баноув
У нас великий веб-сайт новин - наші історії підбирають Новини Google кілька разів на тиждень. Ми отримуємо трафік з цього джерела з кінця листопада - і він зростає з тижня на тиждень - можливо, у лютому 30 мільйонів імп.
Поява на головній сторінці Google News US - це поштовх для цього трафіку - близько 75 відсотків нібито від IP-адрес США. Але що б там не було, докладаємо великих зусиль, щоб затьмарити себе. І це не є дружнім.
Ми також не знайшли гармати для куріння - але великий постачальник безпеки люб’язно погодився розслідувати далі від нашого імені.
Оновлення від Артема Русаковського
Просто вперше трапилося те саме з новинним сайтом (AndroidPolice.com). Близько 10 хвилин цих випадкових запитів, які спричинили QPS понад 5000% від нашого середнього (5000qps, що є лінією NodeBalancer від Linode). Процесор почав працювати в режимі очікування, оскільки запити поглинали введення-виведення та мережу - це був справжній DDOS.
Мені дуже хотілося б дійти до цього, але на даний момент це здається зовсім дивним.
Оновлення від Марка
Просто додавання +1. Ми спостерігаємо таку саму поведінку на нашому сайті. Тут не додати нову інформацію, але ось загальна форма нашого трафіку:
- Трафік сильно розподілений. Трафік надходить понад ~ 60 000 унікальних IP-адрес.
- Велика частина трафіку припадає на одну URL-адресу, як правило, недавню URL-адресу, вказану в Новинах Google (хоча Новини Google не завжди є вектором)
- Весь цей трафік надходить від того самого користувальницького агента Firefox / 3.0.10, як зазначено в цій темі, хоча тут і там ми бачили деякі дивні мобільні агенти.
- Весь трафік, що надходить від цього агента, не містить даних про перенаправлення.
- Вибух відбувається раз-два на тиждень протягом 30-60 хвилин, а потім відходить.
Оновлення з Дон Ірландії
Останнє повідомлення було 13 квітня, але рух точно не закінчився. Найдивнішою частиною цього може бути той факт, що будь-який автор шкідливого програмного забезпечення, вартій його солі, напевно (напевно) міг би використовувати рядок-агент-користувач із сучасного браузера, роблячи захист блоку-користувача-агента непридатним. Цей факт здається, що джерелом "нешкідливих" новин чи іншим додатком є джерело. Поки що я також не зміг дійти жодного реального висновку і сподіваюся, що хтось із інформацією опублікує його тут.
Ми бачимо той самий малюнок: історія, яку підхоплюють новини Google, супроводжується дуже високими скачками трафіку із запитом на історію (але не файли аксесуарів, такі як зображення). Трафік вихідної реакції викликає сплески, які можуть наситити мережу (або так, поки ми не почали реагувати лише з помилкою 503). Ці атаки (як ще ми можемо їх назвати?) Тривають в середньому близько 30 хвилин, але дуже популярні історії можуть мати високий трафік протягом години і більше (я кажу про трафік Firefox 3.0.10, звичайно звичайний трафік також залишається високим на деякий час).
Протягом однієї години (для одного сервера в групі, збалансованої навантаженням) ми побачили 200 000 запитів, з яких 97000 - запити Firefox 3.0.10, що становить майже 50% усіх запитів. І якщо врахувати, що сторінка зазвичай генерує 10 або більше запитів для основного файлу та додаткових файлів, то 97 000 ткацьких верстатів набагато більше. Зауважу, що з 97 000 було 51 000 унікальних IP-адрес. І я кажу про одну годину (насправді це було ближче до 45 хвилин). Що б це не викликало, досить поширене.
Оновлення від користувача119708
Ми маємо той самий випуск на величезному веб-сайті про високотехнологічні французькі новини.
Щоразу, коли новини публікуються та переглядаються в новинах google, трафік новин значно збільшується, приблизно від 50 до 100 відвідувань IP-адреси та агента користувача "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".
Здається, що всі адреси IP розташовані у Франції або у французьких країнах і не мають референта. Здається, це бот, але чому за одну хвилину однієї віддаленої адреси потрібно повертатись 50 або 100 разів за тими самими новинами? Чи можуть це бути заражені комп'ютери? Чому явище з’являється, коли новини видно в новинах Google? Чи відповідальна компанія Google за цей дивний трафік?
Якщо хтось із цієї теми знайшов пояснення, я думаю, що це допоможе багатьом середнім або великим веб-сайтам контролювати їхній трафік!
EDIT: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Якщо це справді заражені комп’ютери, це дуже хвилює з огляду на кількість залучених адрес. Ми реалізуємо цей скрипт для Apache, щоб заблокувати весь трафік:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Оновлення від Ернесто
Сайт середніх іспанських загальних новин за кілька днів помітив високий трафік у деяких неактуальних новинах.
Хто б це не був, він завантажує повний HTML, оскільки ми його помічаємо завдяки підрахунку "перегляду сторінки", який ми збільшуємо за допомогою оновлень бази даних після завантаження сторінки.
Ми помічаємо лише одну або дві URL-адреси, націлені щодня.
Багато запитів (7000-12000) над однією і тією ж URL-адресою за кілька секунд, розподілених за день з різних IP-адрес. Наступні дні націлені інші URL-адреси.
Жоден референт.
Націлені статті з’явились у Новинах Google, але ми не можемо впевнитись, що вони пов’язані.
Google Analytics не визнає його законним трафіком. У нас є статті з більш ніж 8000 звернень, а GA повідомляє лише про 25 (я припускаю, що JavaScript не інтерпретується).
Оновлення від Old Pro
Додавання декількох точок даних для вас.
"Боти" та "Браузери " не вважають цей UA ботом (поки що).
На найпопулярнішому веб-сайті, на який я маю журнали, використання травня 2012 року на даний час показує, що ця UA становить менше 1% трафіку. Значна частина запитів UA видається законною (наприклад, завантаження всіх очікуваних ресурсів). Це в основному те саме, що і для лютого 2012 року.
Титульна сторінка сайту рідко оновлюється, а весь динамічний контент блокується robots.txt.
Ймовірно, це від Genieo. Вони оновили свою програму, щоб використовувати новий агент користувача: Mozilla / 5.0 + (сумісний; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Він вражає тією ж схемою, що і оригінальний агент користувача, але тепер вони, схоже, ідентифікують себе. Якщо ви подивитесь на URL-адресу в їх агенті користувача, вони навіть визнають, що вони могли або все ще генерують занадто великий трафік на певних веб-сайтах. - dflaw
Оновлення від Майка Фагана
Ми вже кілька тижнів боремося за те, що ми вважали, що це DDOS-атаки. Ми щойно почали бачити Genieo як корисний агент для цих атак. Раніше ми бачили "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" і багато запитів від " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". 10k + різні IP-адреси, що перевищує 1 мільйон запитів на день, лише 3 або 4 сторінки, де той самий IP-адресу запитував сторінки 100+ разів і не тягнув ніяких додаткових активів чи реклами. Я вважаю, що жоден із цих IP-адрес фактично не перейшов на будь-які інші сторінки на нашому сайті.
Я зв’язався з Genieo, і це їх відповідь:
"Дякуємо, що зв’язалися з нами.
Стара версія Genieo могла спричинити опис завантажених вами трафіку. Просимо вибачення за будь-які незручності. Ми опублікували та оновили вчора, що стосуються цього, завантаження даних із нашої програми має зникнути протягом найближчих 24 годин. Ми вважали, що ми робимо хороший сервіс для вашого сайту, представивши його новим користувачам. Ми не оцінили належним чином, що по мірі зростання нашої бази встановлення це може призвести до перевантаження деяких сидів.
Genieo - це особиста газета чи розумний читач RSS. Це зчитувач RSS на стороні клієнта з інтелектуальною семантичною фільтрацією персоналізації. Додаток Genieo слідкує за даними RSS з улюблених сайтів користувача, «читає» статті, проводячи семантичний аналіз та фільтруючи їх щодо інтересів користувачів. Якщо стаття відповідає інтересам користувача, програма відображає заголовок та фрагмент статті на домашній сторінці користувача. Клацання на назві призведе до сайту статті - вашого сайту. Агент Genieo є автономним (з міркувань конфіденційності); він працює на машині кінцевих користувачів, тому ви бачите агент, що отримує доступ до вашого веб-сайту з різних IP-адрес.
Більшість даних Genieo надходять із звичайних RSS-каналів користувача, але Genieo також додає вміст із нових новинних сайтів, які раніше не були зареєстровані користувачами (для serendipity та різноманітності). Алгоритми Genieo шукають «гарячі» статті, найпопулярніші хіти Twitter, найбільш популярні YouTube, а новини Google висвітлюють та перевіряють, чи відповідають вони інтересам користувача
Ми не знали, що це спричиняє проблему завантаження для певного сайту. Після того, як це було доведено до відома, ми оновлюємо поточних користувачів новою версією, яка запобігає навантаженням.
З повагою,
-Дотан