Що таке "стаття 2001 року" для блокування "автоматизованих програм пошуку", на яку посилається сторінка wget man?


11

Сторінка wgetman про це говорить у розділі для --random-waitпараметра:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Я хочу отримати копію цієї статті для читання, і я спробував багато пошуків в Інтернеті, щоб визначити статтю. Однак, я можу знайти ці пошуки - це сторінка для wgetрозміщення на різних веб-сайтах; та деякі інші дослідницькі роботи, які взагалі не мають стосунку до цієї теми.

Хтось знає, про яку статтю йдеться і де я можу отримати копію?


Я копав список розсилки wget і виявив це: list.gnu.org/archive/html/bug-wget/2015-05/msg00029.html
7171u

Відповіді:


15

Незважаючи на те, що це не пряма відповідь, git blameі git logвиявляємо, що цей розділ був введений у комітеті 2c41d783 покликаним комітетом hniksic, який, як виявляється, є Хрвоєм Нікшичем . Його електронну адресу можна знайти у ChangeLogфайлі wget (я не публікую його тут із зрозумілих причин). Я б запропонував запитати його безпосередньо, оскільки він, можливо, найкраще дати більш адекватну відповідь. Перебуваючи в ньому, ви можете розглянути питання, чи не буде він відповідно до оновлення сторінки. ;)


4

Я думаю, це може бути ця стаття:

Створення змістовних даних з веб-журналів за допомогою базової SAS

Там є абзац, що обговорює блокування діапазонів класу C:

Як тільки IP-адреса відокремлена від її компонентів, фільтрація діапазонів IP-адрес буде простою. Фільтр класу B робиться проти перших двох октетів, наприклад 168.126.xx.xx. Це змінна Onetwo в наведеному вище прикладі коду. Діапазони класу C частіше використовуються, оскільки вони націлені на цілі сервери та використовують три з чотирьох октетів, наприклад 168.126.56.xx. У наведеному вище прикладі коду це поле три з урахуванням того, що Usrhost є значенням TCP / IP-адреси веб-журналу.

І одне згадування wgetв блокуванні на основі рядка агентів користувача:

Наш кращий спосіб ідентифікації рядка агента користувача використовує функцію узгодження індексу шаблону. Наприклад:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Це був п’ятий результат у " Гуглі" для "журналу аналізу журналів" за 2001 рік .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.