Як отримати джерело сторінки певної сторінки результатів пошуку Google?


0

Я хочу написати код для видачі імен персонажів із телевізійних серій чи фільмів за допомогою сценарію оболонки ... Я планую це зробити, використовуючи джерело сторінки результату пошуку в Google, для якого я вимагатиму сторінки джерело посилань ... наприклад, наприклад, це посилання я спробував безпосередньо за допомогою wget, але він дає код помилки 8, а також curl -L подає "неправильне" джерело сторінки


Ви впевнені, що це "неправильне" джерело сторінки? Google, ймовірно, використовує код клієнта (JavaScript) для заповнення символьних даних після завантаження сторінки, тобто джерело сторінки, яке ви отримуєте, не буде схожим на джерело браузера, оскільки джерело, яке відображається в браузері, було змінено JavaScript після завантаження сторінки. . wgetі curlне робіть жодної обробки.
varlogtim

Відповіді:


0

Якщо ви подивитеся на повідомлення журналу wget, ви побачите, що нарешті отримуєте "403 Заборонено" від Google.

Тож почуйте запрошення подивитися цю відповідь Stackoverflow . Google не хоче, щоб його сторінки результатів пошуку використовувались автоматизовано, і, напевно, у них є досить вагомі причини.

Якщо ви хочете зробити це все-таки, ви можете встановити інший рядок User Agent за допомогою wget --user-agent=Chrome -O results.html 'https://www.google.com/search?hl=en&q=iron%20man%20character%20names'

Однак відповідь, яку ви отримаєте від Google, тоді непросто проаналізувати - можливо, ви можете використовувати базу даних фільмів для цього завдання?


що спрацювало, і насправді вихід не є легким для розбору .. а щодо використання БД фільму насправді те, що я хочу зробити, є більш загальним і шматок мозіака, який хвилював мене (що вирішив) мене ...
juggernauthk108
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.