Програмування web-scraping

30

Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 6 років тому . Я думаю про те, щоб спробувати Beautiful Soup , пакет Python для скребкування HTML. …

406 html web-scraping html-parsing html-content-extraction

16

Як знайти елементи за класом

У мене виникають проблеми з розбором елементів HTML з атрибутом "class" за допомогою Beautifulsoup. Код виглядає приблизно так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Я отримую помилку в тому ж рядку "після" сценарій закінчується. File "./beautifulcoding.py", line 130, in getlanguage …

386 python html web-scraping beautifulsoup

3

Браузер без головок та скребкування - рішення [закрито]

Зачинено. Це питання не відповідає вказівкам щодо переповнення стека . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для переповнення стека. Закрито 5 років тому . Я намагаюся скласти список можливих рішень для автоматичних тестових костюмів браузера та безголових платформ браузера, здатних скребкувати. ВИПРОБУВАННЯ …

368 selenium web-scraping scrapy phantomjs casperjs

6

Як я можу отримати вік кешу Google для будь-якої URL-адреси чи веб-сторінки? [зачинено]

Зачинено. Це питання не відповідає вказівкам щодо переповнення стека . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для переповнення стека. Закрито 2 роки тому . Удосконаліть це питання У моєму проекті мені потрібен вік кеш-пам’яті Google як важливу інформацію. Я намагався шукати джерела …

261 html url hyperlink web-scraping

3

Який HTML-парсер найкращий? [зачинено]

Наразі це запитання не підходить для нашого формату запитань. Ми очікуємо, що відповіді будуть підкріплені фактами, посиланнями або експертними знаннями, але це питання, ймовірно, вимагатиме дискусій, аргументів, опитувань чи розширеної дискусії. Якщо ви вважаєте, що це питання можна вдосконалити та, можливо, знову відкрити, відвідайте довідковий центр для ознайомлення . Закрито …

194 java html parsing html-parsing web-scraping

13

Як вибрати значення випадаючого меню за допомогою Selenium за допомогою Python?

Мені потрібно вибрати елемент зі спадного меню. Наприклад: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Спочатку я повинен натиснути на нього. Я роблю це: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Після цього я повинен вибрати хороший елемент, давайте сказати Mango. Я намагався це зробити, inputElementFruits.send_keys(...)але …

185 python selenium selenium-webdriver web-scraping webdriver

14

Веб-скреблінг сторінки JavaScript з Python

Я намагаюся розробити простий веб-скребок. Я хочу витягнути текст без HTML-коду. Насправді я досягаю цієї мети, але я бачив, що на деяких сторінках, де завантажений JavaScript, я не отримав хороших результатів. Наприклад, якщо якийсь код JavaScript додає якийсь текст, я його не бачу, тому що коли я телефоную response = …

178 python web-scraping python-2.x urlopen

4

Скреблінг таблиць HTML у рамки даних R за допомогою пакету XML

Як скребти HTML-таблиці за допомогою пакету XML? Візьмемо, наприклад, цю сторінку Вікіпедії про футбольну команду Бразилії . Я хотів би прочитати це в R і отримати таблицю "список усіх матчів, які Бразилія зіграла проти визнаних команд FIFA" як фрейму даних. Як я можу це зробити?

153 html r xml parsing web-scraping

13

Як зберегти зображення локально за допомогою Python, URL-адресу якого я вже знаю?

Я знаю URL-адресу зображення в Інтернеті. наприклад, http://www.digimouth.com/news/media/2011/09/google-logo.jpg , який містить логотип Google. Тепер, як я можу завантажити це зображення за допомогою Python, не відкриваючи фактично URL-адреси у веб-переглядачі та зберігаючи файл вручну.

152 python web-scraping

16

отримати посилання з веб-сторінки за допомогою python та BeautifulSoup

Як я можу отримати посилання веб-сторінки та скопіювати URL-адресу посилань за допомогою Python?

141 python web-scraping hyperlink beautifulsoup

7

Ляльковий: передати змінну в .evaluate ()

Я намагаюся передати змінну у page.evaluate()функцію в Puppeteer , але коли я використовую наступний дуже спрощений приклад, змінна evalVarне визначена. Я новачок у Puppeteer і не можу знайти жодних прикладів для створення, тому мені потрібна допомога передати цю змінну у page.evaluate()функцію, щоб я міг її використовувати всередині. const puppeteer = …

128 javascript web-scraping evaluate puppeteer

4

Як використовувати запити Python для підробленого відвідування браузера?

Я хочу отримати вміст із веб-сайту нижче. Якщо я використовую браузер, як Firefox або Chrome, я міг би отримати реальну потрібну сторінку веб-сайту, але якщо я використовую пакет запитів Python (або wgetкоманду), щоб отримати його, він повертає зовсім іншу сторінку HTML. Я думав, що розробник веб-сайту зробив для цього кілька …

127 python html web-scraping python-requests wget

17

Вишкрібання: SSL: помилка CERTIFICATE_VERIFY_FAILED для http://en.wikipedia.org

Я практикую код із "Веб-скребування за допомогою Python", і у мене постійно виникає така проблема сертифіката: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] …

123 python web-scraping beautifulsoup scrapy ssl-certificate

2

Який найкращий спосіб скреблінгу даних з веб-сайту? [зачинено]

Закрито . Це питання ґрунтується на думці . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб на нього можна було відповісти фактами та цитатами, відредагувавши цю публікацію . Закрито 6 років тому . Удосконаліть це питання Мені потрібно витягнути вміст з веб-сайту, але програма не забезпечує жодного …

107 api web-scraping screen-scraping

2

селен зі скрапом для динамічної сторінки

Я намагаюся зішкребти інформацію про товар із веб-сторінки за допомогою скрапінгу. Моя веб-сторінка, яку потрібно очистити, виглядає так: починається зі сторінки списку товарів із 10 товарами натискання кнопки "Далі" завантажує наступні 10 продуктів (URL не змінюється між двома сторінками) я використовую LinkExtractor, щоб перейти за кожним посиланням на товар на …

85 python selenium selenium-webdriver web-scraping scrapy

Запитання з тегом «web-scraping»