Як ви інструктуєте wget рекурсивно сканувати веб-сайт і завантажувати лише певні типи зображень?
Я намагався використовувати це для сканування сайту та завантажувати лише зображення Jpeg:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
Однак, незважаючи на те, що page1.html містить сотні посилань на підсторінки, які самі по собі мають прямі посилання на зображення, wget повідомляє про такі речі, як "Видалення subpage13.html, оскільки його слід відхилити", і ніколи не завантажує жодні зображення, оскільки жодне не має прямого зв'язку зі стартової сторінки.
Я припускаю, що це тому, що мій --accept використовується як для прямого сканування, так і для фільтрування вмісту для завантаження, тоді як я хочу, щоб він використовувався лише для направлення завантаження вмісту. Як я можу змусити wget сканувати всі посилання, але завантажувати лише файли з певними розширеннями, такими як * .jpeg?
EDIT: Крім того, деякі сторінки є динамічними та генеруються за допомогою сценарію CGI (наприклад, img.cgi? Fo9s0f989wefw90e). Навіть якщо я додаю cgi до свого списку акцептів (наприклад, --accept = jpg, jpeg, html, cgi), вони все одно відхиляються. Чи є шлях до цього?