Я кодую багато парсерів. До цих пір я використовував безголовий браузер HtmlUnit для розбору та автоматизації браузера.
Тепер я хочу розділити обидва завдання.
Оскільки 80% моєї роботи передбачає просто розбір, я хочу використовувати легкий HTML-аналізатор, оскільки в HtmlUnit потрібно багато часу, щоб спочатку завантажити сторінку, потім отримати джерело, а потім проаналізувати його.
Я хочу знати, який HTML-аналізатор найкращий. Аналізатор буде кращим, якби він був близький до аналізатора HtmlUnit.
Редагувати:
У кращому випадку я хочу хоча б наступних функцій:
- Швидкість
- Легко знайти будь-який HtmlElement за його "id" або "name" або "type type".
Було б добре для мене, якщо він не очистить брудний HTML-код. Мені не потрібно очищати жодне джерело HTML. Мені просто потрібен найпростіший спосіб перейти через HtmlElements і збирати з них дані.