Запитання з тегом «web-crawler»

5
Перетворення веб-сторінок в один файл для книги
Я хочу завантажити HTML (наприклад: http://www.brpreiss.com/books/opus6/ ) і приєднати його до одного HTML чи іншого формату, який я можу використовувати в читальнику електронних книг. Сайти з безкоштовними книгами не мають стандартного підкачки, вони не є блогами чи форумами, тому не знаю, як зробити автоматичне сканування та злиття.


2
Як сканувати за допомогою wget для завантаження ТІЛЬКИ HTML-файлів (ігноруйте зображення, css, js)
По суті, я хочу сканувати весь сайт за допомогою Wget, але мені це потрібно, щоб НІКОЛИ не завантажувати інші ресурси (наприклад, зображення, CSS, JS тощо). Я хочу лише HTML-файли. Пошуки Google абсолютно марні. Ось команда, яку я спробував: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; …
14 wget  web-crawler 

4
Використовуючи Wget для рекурсивного сканування сайту та завантаження зображень
Як ви інструктуєте wget рекурсивно сканувати веб-сайт і завантажувати лише певні типи зображень? Я намагався використовувати це для сканування сайту та завантажувати лише зображення Jpeg: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html Однак, незважаючи на те, що page1.html містить сотні посилань на підсторінки, які самі по собі мають прямі …

4
Наскільки «легальним» є скребкування сайту за допомогою CURL? [зачинено]
Наразі це запитання не підходить для нашого формату запитань. Ми очікуємо, що відповіді будуть підкріплені фактами, посиланнями або експертними знаннями, але це питання, ймовірно, вимагатиме дискусій, аргументів, опитувань чи розширеної дискусії. Якщо ви вважаєте, що це питання можна вдосконалити та, можливо, знову відкрити, відвідайте довідковий центр для ознайомлення . Закрито …

1
Сканувати веб-сайт для файлів
Привіт Я хотів би завантажити всі PDF-файли з http://www.allitebooks.com/ і хотів би використовувати wget. моя команда, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -rале я вважаю, що наразі вона не може переходити за посиланнями на піддомен, як я можу її виправити, щоб вона завантажувала http://file.allitebooks.com/20170105/Internet%20of%20Things%20and%20Big%20Data%20Technologies Наприклад,% 20для% 20Наступний% 20Генерація% 20Здоров'я.pdf .
-1 pdf  wget  web-crawler 
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.