Запитання з тегом «web-scraping»

Веб-скребки - це процес вилучення конкретної інформації з веб-сайтів, які не надають API чи інших методів автоматизованого пошуку даних. Питання щодо "Як розпочати роботу з вискоблюванням" (наприклад, з Excel VBA) слід детально вивчити *, оскільки доступні численні зразки функціональних кодів. Методи скребкування веб-сторінок включають сторонні додатки, розробку спеціального програмного забезпечення або навіть ручний збір даних стандартизованим способом.

30
Варіанти скребтування HTML? [зачинено]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 6 років тому . Я думаю про те, щоб спробувати Beautiful Soup , пакет Python для скребкування HTML. …

16
Як знайти елементи за класом
У мене виникають проблеми з розбором елементів HTML з атрибутом "class" за допомогою Beautifulsoup. Код виглядає приблизно так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Я отримую помилку в тому ж рядку "після" сценарій закінчується. File "./beautifulcoding.py", line 130, in getlanguage …

3
Браузер без головок та скребкування - рішення [закрито]
Зачинено. Це питання не відповідає вказівкам щодо переповнення стека . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для переповнення стека. Закрито 5 років тому . Я намагаюся скласти список можливих рішень для автоматичних тестових костюмів браузера та безголових платформ браузера, здатних скребкувати. ВИПРОБУВАННЯ …

6
Як я можу отримати вік кешу Google для будь-якої URL-адреси чи веб-сторінки? [зачинено]
Зачинено. Це питання не відповідає вказівкам щодо переповнення стека . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для переповнення стека. Закрито 2 роки тому . Удосконаліть це питання У моєму проекті мені потрібен вік кеш-пам’яті Google як важливу інформацію. Я намагався шукати джерела …

3
Який HTML-парсер найкращий? [зачинено]
Наразі це запитання не підходить для нашого формату запитань. Ми очікуємо, що відповіді будуть підкріплені фактами, посиланнями або експертними знаннями, але це питання, ймовірно, вимагатиме дискусій, аргументів, опитувань чи розширеної дискусії. Якщо ви вважаєте, що це питання можна вдосконалити та, можливо, знову відкрити, відвідайте довідковий центр для ознайомлення . Закрито …

13
Як вибрати значення випадаючого меню за допомогою Selenium за допомогою Python?
Мені потрібно вибрати елемент зі спадного меню. Наприклад: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Спочатку я повинен натиснути на нього. Я роблю це: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Після цього я повинен вибрати хороший елемент, давайте сказати Mango. Я намагався це зробити, inputElementFruits.send_keys(...)але …

14
Веб-скреблінг сторінки JavaScript з Python
Я намагаюся розробити простий веб-скребок. Я хочу витягнути текст без HTML-коду. Насправді я досягаю цієї мети, але я бачив, що на деяких сторінках, де завантажений JavaScript, я не отримав хороших результатів. Наприклад, якщо якийсь код JavaScript додає якийсь текст, я його не бачу, тому що коли я телефоную response = …

4
Скреблінг таблиць HTML у рамки даних R за допомогою пакету XML
Як скребти HTML-таблиці за допомогою пакету XML? Візьмемо, наприклад, цю сторінку Вікіпедії про футбольну команду Бразилії . Я хотів би прочитати це в R і отримати таблицю "список усіх матчів, які Бразилія зіграла проти визнаних команд FIFA" як фрейму даних. Як я можу це зробити?
153 html  r  xml  parsing  web-scraping 

13
Як зберегти зображення локально за допомогою Python, URL-адресу якого я вже знаю?
Я знаю URL-адресу зображення в Інтернеті. наприклад, http://www.digimouth.com/news/media/2011/09/google-logo.jpg , який містить логотип Google. Тепер, як я можу завантажити це зображення за допомогою Python, не відкриваючи фактично URL-адреси у веб-переглядачі та зберігаючи файл вручну.


7
Ляльковий: передати змінну в .evaluate ()
Я намагаюся передати змінну у page.evaluate()функцію в Puppeteer , але коли я використовую наступний дуже спрощений приклад, змінна evalVarне визначена. Я новачок у Puppeteer і не можу знайти жодних прикладів для створення, тому мені потрібна допомога передати цю змінну у page.evaluate()функцію, щоб я міг її використовувати всередині. const puppeteer = …

4
Як використовувати запити Python для підробленого відвідування браузера?
Я хочу отримати вміст із веб-сайту нижче. Якщо я використовую браузер, як Firefox або Chrome, я міг би отримати реальну потрібну сторінку веб-сайту, але якщо я використовую пакет запитів Python (або wgetкоманду), щоб отримати його, він повертає зовсім іншу сторінку HTML. Я думав, що розробник веб-сайту зробив для цього кілька …

17
Вишкрібання: SSL: помилка CERTIFICATE_VERIFY_FAILED для http://en.wikipedia.org
Я практикую код із "Веб-скребування за допомогою Python", і у мене постійно виникає така проблема сертифіката: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] …

2
Який найкращий спосіб скреблінгу даних з веб-сайту? [зачинено]
Закрито . Це питання ґрунтується на думці . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб на нього можна було відповісти фактами та цитатами, відредагувавши цю публікацію . Закрито 6 років тому . Удосконаліть це питання Мені потрібно витягнути вміст з веб-сайту, але програма не забезпечує жодного …

2
селен зі скрапом для динамічної сторінки
Я намагаюся зішкребти інформацію про товар із веб-сторінки за допомогою скрапінгу. Моя веб-сторінка, яку потрібно очистити, виглядає так: починається зі сторінки списку товарів із 10 товарами натискання кнопки "Далі" завантажує наступні 10 продуктів (URL не змінюється між двома сторінками) я використовую LinkExtractor, щоб перейти за кожним посиланням на товар на …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.