Запитання з тегом «beautifulsoup»

Beautiful Soup - це пакет Python для синтаксичного аналізу HTML / XML. Остання версія цього пакету - версія 4, імпортована як bs4.

28
UnicodeEncodeError: кодек "ascii" не може кодувати символ u '\ xa0' у позиції 20: порядковий не знаходиться в діапазоні (128)
У мене проблеми з символами Unicode з тексту, отриманого з різних веб-сторінок (на різних сайтах). Я використовую BeautifulSoup. Проблема полягає в тому, що помилка не завжди відтворюється; іноді він працює з деякими сторінками, а іноді - барфікує, кидаючи UnicodeEncodeError. Я спробував майже все, про що можу придумати, але все ж …

16
Як знайти елементи за класом
У мене виникають проблеми з розбором елементів HTML з атрибутом "class" за допомогою Beautifulsoup. Код виглядає приблизно так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Я отримую помилку в тому ж рядку "після" сценарій закінчується. File "./beautifulcoding.py", line 130, in getlanguage …

12
bs4.FeatureNotFound: Не вдалося знайти конструктора дерев із необхідними функціями: lxml. Вам потрібно встановити бібліотеку аналізатора?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Вищевказані результати на моєму терміналі. Я на Mac OS 10.7.x. У мене є Python 2.7.1, і я …

6
UnicodeEncodeError: кодек "charmap" не може кодувати символи
Я намагаюся скребти веб-сайт, але це дає мені помилку. Я використовую такий код: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) І я отримую таку помилку: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position …

5
TypeError: потрібний об’єкт, подібний до байтів, не "str" ​​у python та CSV
TypeError: потрібен об'єкт, подібний до байтів, а не 'str' отримання вище помилки під час виконання нижче коду python для збереження даних таблиці HTML у файлі Csv. не знаю, як отримати rideup.pls допоможіть мені. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row …

11
Прекрасний суп і видобуток діва та його вмісту за ідентифікатором
soup.find("tagName", { "id" : "articlebody" }) Чому це НЕ повертає <div id="articlebody"> ... </div>теги та речі між ними? Він нічого не повертає. І я знаю, адже він існує, тому що я дивлюся прямо на це soup.prettify() soup.find("div", { "id" : "articlebody" }) також не працює. ( EDIT: я виявив, що …


16
ImportError: модуль не названий bs4 (BeautifulSoup)
Я працюю в Python і використовую Flask. Коли я запускаю свій основний файл Python на своєму комп’ютері, він працює відмінно, але коли я активую venv і запускаю файл Flask Python в терміналі, він говорить про те, що в моєму головному файлі Python "немає модуля з іменем bs4." Будь-які коментарі чи …


10
Текст веб-сторінки BeautifulSoup Grab
В основному, я хочу використовувати BeautifulSoup, щоб чітко схопити видимий текст на веб-сторінці. Наприклад, ця веб-сторінка є моїм тестом. І в основному я хочу просто отримати текст тексту (статтю) і, можливо, навіть кілька назв вкладок тут і там. Я спробував пропозицію в цьому запитанні ТАК, який повертає безліч <script>тегів і …

17
Вишкрібання: SSL: помилка CERTIFICATE_VERIFY_FAILED для http://en.wikipedia.org
Я практикую код із "Веб-скребування за допомогою Python", і у мене постійно виникає така проблема сертифіката: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] …

6
Як знайти дітей вузлів за допомогою BeautifulSoup
Я хочу отримати всі <a>теги, які є дітьми <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Я знаю, як знайти елемент із таким класом, як це: soup.find("li", { "class" : "test" }) Але я не знаю, як знайти всіх <a>дітей, <li class=test>але не будь-яких інших. Я …

6
Вилучення значення атрибута за допомогою красивого набору
Я намагаюся витягнути вміст одного атрибута "value" у конкретному тезі "input" на веб-сторінці. Я використовую такий код: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) Я отримую TypeError: індекси списку повинні бути …

9
чи можемо ми використовувати xpath з BeautifulSoup?
Я використовую BeautifulSoup, щоб скребти URL, і у мене був такий код import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Тепер у наведеному вище коді ми можемо використовувати findAllтеги та інформацію, пов’язану з ними, …

7
Python: BeautifulSoup - отримати значення атрибута на основі атрибута name
Я хочу надрукувати значення атрибута на основі його імені, візьмемо для прикладу <META NAME="City" content="Austin"> Я хочу зробити щось подібне soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] Наведений вище код дає KeyError: 'name', я вважаю, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.