Запитання з тегом «scrapy»

3
Браузер без головок та скребкування - рішення [закрито]
Зачинено. Це питання не відповідає вказівкам щодо переповнення стека . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для переповнення стека. Закрито 5 років тому . Я намагаюся скласти список можливих рішень для автоматичних тестових костюмів браузера та безголових платформ браузера, здатних скребкувати. ВИПРОБУВАННЯ …

23
Неможливо встановити Lxml на Mac OS x 10.9
Я хочу встановити Lxml, щоб потім міг встановити Scrapy. Коли я оновив свій Mac сьогодні, це не дозволило мені перевстановити lxml, я отримав таку помилку: In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/xmlversion.h' file not found #include "libxml/xmlversion.h" ^ 1 error generated. error: command 'cc' failed with exit status …
234 python  xcode  macos  scrapy  lxml 

18
"OSError: [Errno 1] Операція не дозволена" при встановленні Scrap в OSX 10.11 (El Capitan) (Захист цілісності системи)
Я намагаюся встановити рамку Scrapy Python в OSX 10.11 (El Capitan) через pip. Сценарій установки завантажує необхідні модулі і в якийсь момент повертає таку помилку: OSError: [Errno 1] Operation not permitted: '/tmp/pip-nIfswi-uninstall/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/six-1.4.1-py2.7.egg-info' Я намагався деактивувати функцію без корінь в OSX 10.11 командою: sudo nvram boot-args="rootless=0";sudo reboot але я все одно …

8
Чи можна скрапію використовувати для вискоблювання динамічного вмісту з веб-сайтів, які використовують AJAX?
Я нещодавно вивчаю Python і занурюю руку в створення веб-скрепера. Це взагалі нічого фантазії; Єдина його мета - вилучення даних із веб-сайтів, що надають ставки, і передача цих даних в Excel. Більшість питань вирішуються, і в мене непогано стоїть проблема. Однак я зачіпаю масштабну перешкоду через одне питання. Якщо сайт …


17
Вишкрібання: SSL: помилка CERTIFICATE_VERIFY_FAILED для http://en.wikipedia.org
Я практикую код із "Веб-скребування за допомогою Python", і у мене постійно виникає така проблема сертифіката: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] …


10
Як використовувати PyCharm для налагодження проектів Scrapy
Я працюю над Scrapy 0.20 з Python 2.7. Я виявив, що PyCharm має хороший налагоджувач Python. Я хочу випробувати своїх павуків Скрапі, використовуючи його. Хтось знає, як це зробити, будь ласка? Те, що я пробував Насправді я намагався запустити павука як сценарій. В результаті я створив цей сценарій. Потім я …

2
селен зі скрапом для динамічної сторінки
Я намагаюся зішкребти інформацію про товар із веб-сторінки за допомогою скрапінгу. Моя веб-сторінка, яку потрібно очистити, виглядає так: починається зі сторінки списку товарів із 10 товарами натискання кнопки "Далі" завантажує наступні 10 продуктів (URL не змінюється між двома сторінками) я використовую LinkExtractor, щоб перейти за кожним посиланням на товар на …

10
Як я можу використовувати різні трубопроводи для різних павуків в одному проекті Скрапі
У мене є проект зі скребу, який містить декількох павуків. Чи я можу визначити, які трубопроводи використовувати для якого павука? Не всі визначені мною трубопроводи застосовні до кожного павука. Дякую
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.