Як сайти виявляють ботів за проксі-серверами або мережами компаній


12

Як великі сайти (наприклад, Вікіпедія) мають справу з ботами, які відстають від інших IP-масок? Наприклад, у моєму університеті всі шукають Вікіпедію, даючи їй значне навантаження. Але, наскільки я знаю, Вікіпедія може знати лише IP маршрутизатора університету, тож якщо я встановити "розв’язаний" бот (лише з невеликою затримкою між запитами), чи може Вікіпедія заборонити моєму боту без заборони всієї організації? може сайт фактично забороняє IP-адресу за організаційною мережею?



@isanae Пов'язане: superuser.com/q/1013630/326546
kasperd

Відповіді:


21

Ні, вони заборонять публічну ІР, і всі, хто є НАТ на цей ІС, також будуть заборонені.

Хоча принаймні, коли ми думаємо, що ми заборонятимемо коледж чи щось подібне, ми звернемось до їхніх контактів зловживань, щоб змусити їх відстежувати злочинця і зупиняти проблему.


2
Що сказав Зіфер. Виступаючи, як хтось, хто відслідковував скарги, надіслані на адресу abuse@unnamedacademicinstitution.edu, ми, як правило, дуже прагнули знайти відповідальну особу, щоб вони розблокували публічну ІС. (Студенти коледжу люблять ділитися музикою однолітків до ровесників. RIAA любить спілкуватися на адресу abuse@wwhat.edu.)
Кетрін Вільярд

... якщо у вашому боті не знайдеться щось унікальне, наприклад, передача маркера доступу або унікальний ідентифікатор браузера.
simpleuser

1
Це не дає відповіді на фактичне заголовне питання про те, як ці сайти виявляють ботів. Насправді, здається, що якщо ви загальмуєте свого бота достатньо (що було б не багато), це насправді не відрізнятиметься від дійсного використання цілою групою студентів коледжу.
Wildcard

1
Щоб продовжити коментар @ KatherineVillyard Офіційно контролюючи мережу установи, якщо до блокування ніхто не звертався до нас, а ресурс, від якого ми були заблоковані, регулярно використовувався, ми б зверталися до них для усунення проблеми. Зазвичай вони готові були розблокувати нас, якщо ми вирішимо це з нашого кінця. Це означало очищення джерела зловживань. Будучи Вікіпедією, навіть якщо вони не звертаються до вашого закладу, ваша установа, швидше за все, перегляне її, коли зрозуміє, що потрапила у чорний список. Ця, здавалося б, нешкідлива заборона може швидко перетворитися на вигнання.
Бекон Бред

1
@Wildcard FWIW більшість місць не розповість вам про те, як вони виявляють ботів просто тому, що це просто допоможе авторам-ботам, яких вони ловлять, щоб змінити речі. Але, крім швидкості запитів на виявлення ботів, існує багато інших сигналів. Але більшість місць не так хвилюються, якщо ви граєте добре, не роблячи щось лайно або напружуючи ресурси. Просто не варто переслідувати кожного маленького бота там.
Zypher

1

Сайт не може безпосередньо заборонити IP, який стоїть за NAT. Він може діяти на IP-адреси, передані через неанонімізовані проксі-сервери HTTP - коли такий проксі пересилає запит, він зазвичай додає цю адресу до заголовка X-Forwarded-For, тож якщо доступ з вашої приватної мережі насправді повинен пройти через такий проксі внутрішній IP може бути викритий; однак більшість сайтів (включена вікіпедія) ні в якому разі не довіряють інформації в цьому заголовку, тому що легко підміняти невинну IP-адресу або уникати заборон.

Є й інші методи, які намагаються однозначно ідентифікувати користувачів незалежно від IP-адреси. Ви можете допитати веб-браузер для отримання великої кількості інформації про нього та систему, на якій працює, наприклад, користувальницький агент, роздільна здатність екрана, список плагінів тощо - див. Https://github.com/carlo/jquery- відбиток браузерадля прикладу цього на практиці. Ви можете використовувати такі відбитки пальців для контролю доступу, хоча залежно від дизайну сайту ви можете мати можливість взаємодіяти з ним без участі в процесі відбитків пальців, і навіть якщо бот не може надати помилкові та рандомізовані дані, щоб уникнути наявності послідовний відбиток пальців, якщо вам відомо, що такий вид захисту є на місці. Цей метод контролю також ризикує помилковим спрацьовуванням, особливо якщо мова йде про мобільні пристрої, де, ймовірно, буде велика кількість клієнтів, які працюють однаковими клієнтськими запасами на однакових апаратних пристроях (більшість людей на певній моделі iPhone працює з певною версією iOS , наприклад, мабуть, вийде той самий відбиток пальців).


1
Це зовсім не навряд чи; багато університетів і принаймні одна ціла країна підтримують проксі-з'єднання та додають X-Forwarded-For.
Майкл Хемптон

Цікаво. Я особисто був би здивований, якби компанія налаштувала свої веб-проксі для цього, оскільки вона викриває деяку (правда, тривіальну) інформацію про вашу внутрішню мережу, але я думаю, це залежить від org.
Carcer

@Carcer, це не повинно бути справжньою внутрішньою IP-адресою, а лише те, що відповідає кожному користувачеві проксі.
Ян Рінроуз

0

Як правило, IP-адреса не є достатньою інформацією для правильної заборони. Таким чином, просунуті мережі працюють високо над мережевим стеком.

Атака відмови в сервісі (DoS) (яку ви турбуєтесь про створення), як правило, обробляється швидкістю, що обмежує початкову настройку TCP-з'єднання. Це означає, що законні користувачі, які готові чекати, переживають, тоді як ті, хто просто намагається споживати серверні ресурси, сповільнюються до того, що стають нешкідливими. Ось тут DoS перетворився на розподілену атаку DoS (DDoS).

Після підключення до сервера ви можете зробити стільки запитів, скільки завгодно, адміністрація веб-сервера може налаштувати кількість запитів для обробки.

Веб-сервер, мабуть, може працювати з більшою потужністю, ніж ваш локальний мережевий шлюз, це, мабуть, обмежуючий фактор у вашому випадку використання. Я б став до заходу, щоб адміністратори вашої університетської мережі прийшли стукати у ваші двері, перш ніж це зробила Вікіпедія

Важливо бути хорошим громадянином Інтернету, тому я би додав боту, що обмежує тарифи, боту.

Слід також зазначити, що у Вікіпедії пропонуються скидання даних, щоби перетягувати сайт насправді не потрібно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.