Для простих випадків завантаження вмісту сторінки використовуйте curl або wget . Обидва є інструментами командного рядка, призначеними для завантаження файлів через HTTP і мають багато варіантів. У вашому випадку вам, швидше за все, потрібно буде зробити ці інструменти схожішими на браузер; Відповідь Lutzky в і відповідь penguin359 ігрових згадати деякі локон і Wget варіанти , які є корисними в цьому відношенні.
Іноді, коли вам потрібно увійти в систему , набагато простіше спочатку ввійти вручну у веб-браузері, а потім експортувати файли cookie веб-браузера (розширення на кшталт allcookies або Export Cookies для Firefox можуть допомогти).
Якщо вам потрібно проаналізувати вміст деяких сторінок або поштових форм , можливо, вам знадобляться цікавіші інструменти, ніж curl і wget. Деякі хороші інструменти є Perl з LWP
(libwww) і HTML::TreeBuilder
(HTML-Tree) або Python зі стандартними бібліотеками (особливо httplib
іhtmllib
).
Для більш складних взаємодій з веб-сайтом, посиланням є WWW Perl :: Mehanize . Ця бібліотека Perl визначає функції високого рівня для взаємодії з веб-сайтом, як це робить веб-браузер, включаючи POSTing, форми, файли cookie, але не Javascript. Якщо Perl - це не ваша чашка чаю, ця бібліотека має імітації з подібними можливостями іншими мовами, такими як Python механізація та Ruby Mechanize .
Нарешті, коли вам потрібен Javascript , звичайним підходом є використання веб-браузера, який керується рамкою автоматизації браузера. Селен і Ватір - популярний вибір; див. також Чи є якісь хороші інструменти, крім SeleniumRC, які можуть отримати веб-сторінки, включаючи вміст, пофарбований JavaScript?