Як отримати джерело сторінки певної сторінки результатів пошуку Google?

Я хочу написати код для видачі імен персонажів із телевізійних серій чи фільмів за допомогою сценарію оболонки ... Я планую це зробити, використовуючи джерело сторінки результату пошуку в Google, для якого я вимагатиму сторінки джерело посилань ... наприклад, наприклад, це посилання я спробував безпосередньо за допомогою wget, але він дає код помилки 8, а також curl -L подає "неправильне" джерело сторінки

shell-script wget curl

— juggernauthk108
джерело

Ви впевнені, що це "неправильне" джерело сторінки? Google, ймовірно, використовує код клієнта (JavaScript) для заповнення символьних даних після завантаження сторінки, тобто джерело сторінки, яке ви отримуєте, не буде схожим на джерело браузера, оскільки джерело, яке відображається в браузері, було змінено JavaScript після завантаження сторінки. . wgetі curlне робіть жодної обробки.

— varlogtim

Якщо ви подивитеся на повідомлення журналу wget, ви побачите, що нарешті отримуєте "403 Заборонено" від Google.

Тож почуйте запрошення подивитися цю відповідь Stackoverflow . Google не хоче, щоб його сторінки результатів пошуку використовувались автоматизовано, і, напевно, у них є досить вагомі причини.

Якщо ви хочете зробити це все-таки, ви можете встановити інший рядок User Agent за допомогою wget --user-agent=Chrome -O results.html 'https://www.google.com/search?hl=en&q=iron%20man%20character%20names'

Однак відповідь, яку ви отримаєте від Google, тоді непросто проаналізувати - можливо, ви можете використовувати базу даних фільмів для цього завдання?

— u_Ltd.
джерело

що спрацювало, і насправді вихід не є легким для розбору .. а щодо використання БД фільму насправді те, що я хочу зробити, є більш загальним і шматок мозіака, який хвилював мене (що вирішив) мене ...

— juggernauthk108