Нещодавно я дізнався, що використання регулярного вираження для розбору HTML веб-сайту для отримання потрібних даних - не найкращий спосіб дії.
Отже, моє запитання просте: що тоді найкращий / найефективніший і загалом стабільний спосіб отримати ці дані?
Зазначу, що:
- API не існує
- Немає іншого джерела, з якого я можу отримати дані (немає баз даних, каналів тощо)
- Немає доступу до вихідних файлів. (Дані з загальнодоступних веб-сайтів)
- Скажімо, дані - це звичайний текст, відображений у таблиці на html-сторінці
Наразі я використовую python для свого проекту, але мовне незалежне рішення / поради було б непогано.
Як побічне запитання: як би ви це зробили, коли веб-сторінку створено за допомогою дзвінків Ajax?
Редагувати:
Що стосується розбору HTML, я знаю, що немає фактичного стабільного способу отримання даних. Як тільки сторінка змінюється, ваш аналізатор робиться для. Що я маю на увазі під стабільним в цьому випадку, це: ефективний спосіб розбору сторінки, який завжди дає мені однакові результати (для того ж набору даних очевидно) за умови, що сторінка не змінюється.