Я намагаюся сканувати результати пошуку веб-сайту новин за допомогою wget .
Назва веб-сайту www.voanews.com .
Після вводу в моєму ключове слово пошуку і натиснувши пошук, він переходить до результатів. Тоді я можу вказати a "до" і "від" - дата і знову натисніть кнопку пошуку.
Після цього URL стає:
http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article
і фактичний зміст результатів - це те, що я хочу завантажити.
Для цього я створив наступну wget-команду:
wget --reject=js,txt,gif,jpeg,jpg \
--accept=html \
--user-agent=My-Browser \
--recursive --level=2 \
www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article
На жаль, сканер не завантажує результати пошуку. Вона потрапляє лише у верхню панель посилань, яка містить посилання "Домашня сторінка, США, Африка, Азія, ..." і зберігає посилання на них.
Схоже, що сканер взагалі не перевіряє посилання на результати пошуку .
Що я роблю неправильно і як я можу змінити команду wget для завантаження списку результатів пошуку посилань (і, звичайно, сайтів, які вони посилають) тільки?