wget сканування результатів пошуку веб-сайту новин

Я намагаюся сканувати результати пошуку веб-сайту новин за допомогою wget .

Назва веб-сайту www.voanews.com .

Після вводу в моєму ключове слово пошуку і натиснувши пошук, він переходить до результатів. Тоді я можу вказати a "до" і "від" - дата і знову натисніть кнопку пошуку.

Після цього URL стає:

http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article

і фактичний зміст результатів - це те, що я хочу завантажити.

Для цього я створив наступну wget-команду:

wget --reject=js,txt,gif,jpeg,jpg \
     --accept=html \
     --user-agent=My-Browser \
     --recursive --level=2 \
     www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article

На жаль, сканер не завантажує результати пошуку. Вона потрапляє лише у верхню панель посилань, яка містить посилання "Домашня сторінка, США, Африка, Азія, ..." і зберігає посилання на них.

Схоже, що сканер взагалі не перевіряє посилання на результати пошуку .

Що я роблю неправильно і як я можу змінити команду wget для завантаження списку результатів пошуку посилань (і, звичайно, сайтів, які вони посилають) тільки?

download search wget

— kiltek
джерело

Це не відповідь як таке ... але використовуючи стандартні:

wget.exe -o logfile -r -l 2 http://www.voanews.com/search/?st=article&k=german&df=11%2F01%2F2013&dt=11%2F03%2F2013&ob=dt#article

Сканує всі сторінки (тощо). Я б взяв пропозицію агента користувача ~~а -np виключення батьківського каталогу.~~

На особистому зауваженні ... є багато посилань в одному пошуку (наприклад, теги), тому ви отримаєте кілька перешкод зі стандартною рекурсією.

— Doktoro Reichard
джерело

Ви видалили -np (--no-parent), оскільки фактичні статті зберігаються в каталозі www.voanews.com/conents/, який є батьківським каталогом сайту результату пошуку. Єдина відмінність у вашому wget полягає в тому, що ви використовуєте лог-файл, не вказуєте користувальницький агент і не маєте пункту приймати відповідно відхилення. Я не думаю, що це переходить до посилань результатів пошуку ...

— kiltek

Я зачепив це головним чином тому, що в Windows у мене були деякі проблеми з цим варіантом ... У будь-якому випадку ця команда привела мене до сканування результатів пошуку, хоча і взяла все з нею. Моє припущення, що це буде працювати так, як ви написали, якщо ви вийдете з агента користувача.

— Doktoro Reichard

Він як і раніше завантажує лише посилання (і їх вміст) на "Домашній, США, Африка, Азія, ..." - панель навігації. Я думаю, я повинен написати сценарій python, щоб отримати ці результати.

— kiltek