Я нещодавно вивчаю Python і занурюю руку в створення веб-скрепера. Це взагалі нічого фантазії; Єдина його мета - вилучення даних із веб-сайтів, що надають ставки, і передача цих даних в Excel.
Більшість питань вирішуються, і в мене непогано стоїть проблема. Однак я зачіпаю масштабну перешкоду через одне питання. Якщо сайт завантажує таблицю коней і перераховує поточні ціни ставок, ця інформація відсутня у жодному вихідному файлі. Поняття полягає в тому, що ці дані іноді живуть, очевидно, що номери оновлюються з певного віддаленого сервера. HTML на моєму ПК просто має дірку, куди їх сервери просувають усі цікаві дані, які мені потрібні.
Зараз мій досвід динамічного веб-контенту низький, тому ця річ - це те, що я маю проблеми з головою.
Я думаю, що Java або Javascript - це ключ, це часто з’являється.
Скрепер - це просто механізм порівняння шансів. Деякі сайти мають API, але мені це потрібно для тих, хто цього не має. Я використовую бібліотеку скрапінгу з Python 2.7
Я прошу вибачення, якщо це питання є занадто відкритим. Якщо коротко, моє запитання: як скрапію можна використовувати для скребкування цих динамічних даних, щоб я міг їх використовувати? Так що я можу викреслити дані шансів на ставку в режимі реального часу?
Firefox
розширень , наприклад , httpFox
або liveHttpHeaders
і завантажити сторінку , яка використовує AJAX запит. Scrap не автоматично визначає запити ajax, вам доведеться вручну шукати відповідну URL-адресу ajax, а потім робити запит із цим.