Запитання з тегом «html-content-extraction»

30
Варіанти скребтування HTML? [зачинено]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 6 років тому . Я думаю про те, щоб спробувати Beautiful Soup , пакет Python для скребкування HTML. …

30
Витяг тексту з HTML-файлу за допомогою Python
Я хотів би витягнути текст з HTML-файлу за допомогою Python. Я хочу, по суті, такого ж результату, який я отримав, якби скопіював текст із браузера і вставив його в блокнот. Мені б хотілося чогось більш надійного, ніж використання регулярних виразів, які можуть не працювати в погано сформованому HTML-коді. Я бачив, …

8
Витягніть частину збігу з регулярними виразками
Я хочу, щоб регулярний вираз витягував заголовок зі сторінки HTML. На даний момент у мене це: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Чи є регулярний вираз для вилучення лише вмісту <title>, тому мені не доведеться видаляти теги?

10
Текст веб-сторінки BeautifulSoup Grab
В основному, я хочу використовувати BeautifulSoup, щоб чітко схопити видимий текст на веб-сторінці. Наприклад, ця веб-сторінка є моїм тестом. І в основному я хочу просто отримати текст тексту (статтю) і, можливо, навіть кілька назв вкладок тут і там. Я спробував пропозицію в цьому запитанні ТАК, який повертає безліч <script>тегів і …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.