Сканувати веб-сайт для файлів


-1

Привіт Я хотів би завантажити всі PDF-файли з http://www.allitebooks.com/ і хотів би використовувати wget. моя команда, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -rале я вважаю, що наразі вона не може переходити за посиланнями на піддомен, як я можу її виправити, щоб вона завантажувала http://file.allitebooks.com/20170105/Internet%20of%20Things%20and%20Big%20Data%20Technologies Наприклад,% 20для% 20Наступний% 20Генерація% 20Здоров'я.pdf .

Відповіді:


1

Я спочатку збирався запропонувати wgetяк рішення, але після подальших досліджень я помітив кілька речей:

Відвідавши одну із сторінок електронної книги на сайті, ви можете побачити URL-адресу посилання на завантаження PDF. Це можна використовувати для завантаження PDF таким чином:

wget http://file.allitebooks.com/20170102/Smart%20Home%20Automation%20with%20Linux%20and%20Raspberry%20Pi,%202%20edition.pdf

Однак це не є рекурсивним, і немає можливості дізнатися, що знаходиться в цьому каталозі, не перевіряючи кожну публікацію в блозі та не копіюючи посилання для завантаження.


але чи немає у світі інструменту, який відвідує всі посилання на певну глибину та завантажує всі файли, які закінчуються .pdfрозширенням? Я вважаю, що має бути одне право?
Томас

Однозначно є способи це зробити. Насправді я написав допис у блозі про рекурсивне завантаження веб-сайту . Проблема тут не в тому, що інструмент не існує, а в тому, що веб-сайт, з якого ви хочете завантажити PDF-файли, є достатньо безпечним, щоб запобігти будь-якому рекурсивному завантаженню сайту.
стуц

Гаразд, я напишу свій власний гусеничний сканер тоді, якщо немає інструментів поза коробкою. Я хотів би заповнити електронний читач цими електронними книгами, щоб мати інформацію, яку можна прочитати на ходу.
Томас

HTTrack або ScrapBook можуть зробити те, що ви шукаєте, але, якщо ви перейдете на конкретний сайт, ви не зможете завантажувати всі PDF-файли неінтерактивно. Я б запропонував вам знайти кілька електронних книг, які ви хочете прочитати з сайту та просто завантажити їх вручну. Пощастило з вашою програмою для сканування :) Якщо ви знайдете, що моя відповідь допомогла надати якесь рішення, тоді не забудьте прийняти це як рішення!
стуц

Йо стюц, я підтримав це, але це не відповідь, яка допомагає досягти моєї мети, тому не приймай людину
Томас
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.