Запитання з тегом «web-crawler»

Веб-сканер (також відомий як Веб-павук) - це комп’ютерна програма, яка здійснює перегляд Всесвітньої павутини методично, автоматизовано або впорядковано. Інші терміни для веб-сканерів - це мурахи, автоматичні індексатори, боти, веб-павуки, веб-роботи або - особливо у спільноті FOAF - веб-скатери.

5
Як вимагати від Google повторного сканування мого веб-сайту? [зачинено]
Зачинено. Це питання не відповідає вказівкам щодо переповнення стека . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для переповнення стека. Закрито 5 років тому . Удосконаліть це питання Хтось знає спосіб подати запит Google на повторне сканування веб-сайту? Якщо це можливо, це не …
227 seo  web-crawler 

2
Надсилання "User-agent" за допомогою бібліотеки запитів у Python
Я хочу надіслати значення для "User-agent"запиту веб-сторінки за допомогою Python Requests. Я не впевнений, чи добре це надсилати як частину заголовка, як у коді нижче: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Інформація про налагодження не відображає заголовків, що надсилаються під час …

4
не дозволяйте rsync видаляти незакінчені вихідні файли
У мене дві машини, швидкість і маса. speed має швидке підключення до Інтернету і працює сканер, який завантажує на диск безліч файлів. маса має багато дискового простору. Я хочу перемістити файли від швидкості до маси після завантаження. В ідеалі я б просто запустив: $ rsync --remove-source-files speed:/var/crawldir . але я …



11
Пошук шарів та розмірів шарів для кожного зображення Docker
Для дослідницьких цілей я намагаюся просканувати загальнодоступний реєстр Docker ( https://registry.hub.docker.com/ ) і з'ясувати 1) скільки шарів має середнє зображення та 2) розміри цих шарів, щоб отримати ідея розподілу. Однак я вивчав API та публічні бібліотеки, а також деталі на github, але не можу знайти жодного методу для: отримати всі …

11
Виявлення веб-сканерів "стелс"
Які існують варіанти виявлення веб-сканерів, які не хочуть виявляти? (Я знаю, що методи виявлення лістингу дозволять розумному програмісту-скаулеру зробити кращого павука, але я не думаю, що ми коли-небудь зможемо заблокувати розумні стелс-сканери, лише ті, які роблять помилки.) Я не кажу про приємних сканерів, таких як googlebot та Yahoo! Сірка. Я …
107 web-crawler 

2
TypeError: не може використовувати рядовий візерунок на об’єкті, подібному до байтів, в re.findall ()
Я намагаюся навчитися автоматично отримувати URL-адреси зі сторінки. У наступному коді я намагаюся отримати назву веб-сторінки: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) І я отримую цю несподівану помилку: Traceback (most recent …


5
Як знайти всі посилання / сторінки на веб-сайті
Чи можна знайти всі сторінки та посилання на БУДЬ-ЯКОМУ веб-сайті? Я хотів би ввести URL-адресу та створити дерево каталогів усіх посилань із цього сайту? Я подивився HTTrack, але це завантажує весь сайт, і мені просто потрібно дерево каталогів.

8
Отримайте список URL-адрес із сайту [закрито]
Зачинено. Це питання не відповідає вказівкам щодо переповнення стека . Наразі відповіді не приймаються. Хочете покращити це питання? Оновіть питання, щоб воно було тематичним для переповнення стека. Закрито 4 роки тому . Удосконалюйте це питання Я розгортаю сайт заміни для клієнта, але він не хоче, щоб усі їхні старі сторінки …

10
Як я можу використовувати різні трубопроводи для різних павуків в одному проекті Скрапі
У мене є проект зі скребу, який містить декількох павуків. Чи я можу визначити, які трубопроводи використовувати для якого павука? Не всі визначені мною трубопроводи застосовні до кожного павука. Дякую

10
Приховати електронну адресу від ботів - тримати пошту:
tl; д-р Приховуйте електронну адресу від ботів без використання сценаріїв та підтримуйте mailto:функціональність. Метод також повинен підтримувати зчитувачі екрана. Резюме Перекриття електронної пошти без використання сценаріїв або контактних форм Адреса електронної пошти повинна бути повністю видимою для глядачів та підтримувати mailto:функціональність Адреса електронної пошти не повинна бути у формі зображення …
81 html  css  web-crawler  mailto 
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.