Програмування html-parsing

30

Як ви аналізуєте та обробляєте HTML / XML в PHP?

Як можна проаналізувати HTML / XML і витягти з нього інформацію?

2120 php xml parsing xml-parsing html-parsing

30

Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 6 років тому . Я думаю про те, щоб спробувати Beautiful Soup , пакет Python для скребкування HTML. …

406 html web-scraping html-parsing html-content-extraction

9

Проаналізуйте рядок HTML за допомогою JS

Я шукав рішення, але нічого не було актуальним, тому ось моя проблема: Я хочу розібрати рядок, який містить текст HTML. Я хочу це зробити в JavaScript. Я спробував цю бібліотеку, але, схоже, вона аналізує HTML моєї поточної сторінки, а не з рядка. Тому що, коли я спробую код нижче, він …

258 javascript html dom html-parsing

18

Використання регулярних виразів для розбору HTML: чому ні?

Схоже, що на кожне запитання про stackoverflow, коли запитувач використовує регулярний вираз для отримання інформації з HTML, неминуче буде відповідь, яка говорить про те, що не використовувати регулярний вираз для розбору HTML. Чому ні? Я знаю, що існують цитати цитата "справжні" HTML-аналізатори, такі як Beautiful Soup , і я впевнений, …

207 regex html-parsing

3

Який HTML-парсер найкращий? [зачинено]

Наразі це запитання не підходить для нашого формату запитань. Ми очікуємо, що відповіді будуть підкріплені фактами, посиланнями або експертними знаннями, але це питання, ймовірно, вимагатиме дискусій, аргументів, опитувань чи розширеної дискусії. Якщо ви вважаєте, що це питання можна вдосконалити та, можливо, знову відкрити, відвідайте довідковий центр для ознайомлення . Закрито …

194 java html parsing html-parsing web-scraping

7

Розбір HTML за допомогою Python

Я шукаю модуль HTML Parser для Python, який може допомогти мені отримати теги у вигляді списків / словників / об’єктів Python. Якщо у мене є документ форми: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something here</div> <div>Something else</div> </div> </body> </html> тоді він повинен дати мені спосіб отримати доступ до …

185 python xml-parsing html-parsing

17

Regex виберіть весь текст між тегами

Який найкращий спосіб виділити весь текст між двома тегами - наприклад: текст між усіма попередніми тегами на сторінці.

143 html regex html-parsing

5

Як працюють синтаксичні аналізи HTML, якщо вони не використовують регулярний вираз?

Я щодня бачу запитання, як проаналізувати або витягнути щось із HTML-рядку, і перша відповідь / коментар - це завжди "Не використовуйте RegEx для розбору HTML, щоб не відчути гнів!" (остання частина іноді опущена). Це досить заплутано для мене, я завжди думав, що загалом найкращий спосіб розбору будь-якого складного рядка - …

96 html regex parsing html-parsing

5

Як проаналізувати HTML-сторінку за допомогою Node.js

Мені потрібно проаналізувати (на стороні сервера) велику кількість HTML-сторінок. Ми всі сходяться на думці, що регулярний вираз - не шлях сюди. Мені здається, що javascript - це власний спосіб синтаксичного аналізу HTML-сторінки, але це припущення спирається на код на стороні сервера, який має всі можливості DOM, які має javascript у …

92 node.js html-parsing server-side

8

Як витягти рядок за шаблоном за допомогою grep, регулярного виразу або perl

У мене є файл, який виглядає приблизно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> Мені потрібно витягти що - або в лапках , які слідують name=, тобто content_analyzer, content_analyzer2і content_analyzer_items. Я роблю це на коробці Linux, тому рішення …

90 regex perl sed html-parsing text-extraction

8

Як нормалізувати HTML в JavaScript або jQuery?

Теги можуть мати кілька атрибутів. Порядок появи атрибутів у коді не має значення. Наприклад: <a href="#" title="#"> <a title="#" href="#"> Як я можу "нормалізувати" HTML у Javascript, так що порядок атрибутів завжди однаковий? Мені байдуже, який порядок обраний, якщо він завжди однаковий. ОНОВЛЕННЯ : моєю початковою метою було полегшити розрізнення …

84 javascript jquery html html-parsing

Запитання з тегом «html-parsing»