Запитання з тегом «html-parsing»

Синтаксичний розбір HTML - це процес споживання серіалізації документа HTML і створення уявлення, з яким ви можете працювати програмно - наприклад, для вилучення даних з нього. Специфікація HTML визначає стандартний алгоритм розбору HTML, який реалізований у всіх основних браузерах.


30
Варіанти скребтування HTML? [зачинено]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 6 років тому . Я думаю про те, щоб спробувати Beautiful Soup , пакет Python для скребкування HTML. …

9
Проаналізуйте рядок HTML за допомогою JS
Я шукав рішення, але нічого не було актуальним, тому ось моя проблема: Я хочу розібрати рядок, який містить текст HTML. Я хочу це зробити в JavaScript. Я спробував цю бібліотеку, але, схоже, вона аналізує HTML моєї поточної сторінки, а не з рядка. Тому що, коли я спробую код нижче, він …

18
Використання регулярних виразів для розбору HTML: чому ні?
Схоже, що на кожне запитання про stackoverflow, коли запитувач використовує регулярний вираз для отримання інформації з HTML, неминуче буде відповідь, яка говорить про те, що не використовувати регулярний вираз для розбору HTML. Чому ні? Я знаю, що існують цитати цитата "справжні" HTML-аналізатори, такі як Beautiful Soup , і я впевнений, …

3
Який HTML-парсер найкращий? [зачинено]
Наразі це запитання не підходить для нашого формату запитань. Ми очікуємо, що відповіді будуть підкріплені фактами, посиланнями або експертними знаннями, але це питання, ймовірно, вимагатиме дискусій, аргументів, опитувань чи розширеної дискусії. Якщо ви вважаєте, що це питання можна вдосконалити та, можливо, знову відкрити, відвідайте довідковий центр для ознайомлення . Закрито …

7
Розбір HTML за допомогою Python
Я шукаю модуль HTML Parser для Python, який може допомогти мені отримати теги у вигляді списків / словників / об’єктів Python. Якщо у мене є документ форми: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something here</div> <div>Something else</div> </div> </body> </html> тоді він повинен дати мені спосіб отримати доступ до …


5
Як працюють синтаксичні аналізи HTML, якщо вони не використовують регулярний вираз?
Я щодня бачу запитання, як проаналізувати або витягнути щось із HTML-рядку, і перша відповідь / коментар - це завжди "Не використовуйте RegEx для розбору HTML, щоб не відчути гнів!" (остання частина іноді опущена). Це досить заплутано для мене, я завжди думав, що загалом найкращий спосіб розбору будь-якого складного рядка - …

5
Як проаналізувати HTML-сторінку за допомогою Node.js
Мені потрібно проаналізувати (на стороні сервера) велику кількість HTML-сторінок. Ми всі сходяться на думці, що регулярний вираз - не шлях сюди. Мені здається, що javascript - це власний спосіб синтаксичного аналізу HTML-сторінки, але це припущення спирається на код на стороні сервера, який має всі можливості DOM, які має javascript у …

8
Як витягти рядок за шаблоном за допомогою grep, регулярного виразу або perl
У мене є файл, який виглядає приблизно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> Мені потрібно витягти що - або в лапках , які слідують name=, тобто content_analyzer, content_analyzer2і content_analyzer_items. Я роблю це на коробці Linux, тому рішення …

8
Як нормалізувати HTML в JavaScript або jQuery?
Теги можуть мати кілька атрибутів. Порядок появи атрибутів у коді не має значення. Наприклад: <a href="#" title="#"> <a title="#" href="#"> Як я можу "нормалізувати" HTML у Javascript, так що порядок атрибутів завжди однаковий? Мені байдуже, який порядок обраний, якщо він завжди однаковий. ОНОВЛЕННЯ : моєю початковою метою було полегшити розрізнення …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.