Користувачі комп'ютера web-crawler

5

Перетворення веб-сторінок в один файл для книги

Я хочу завантажити HTML (наприклад: http://www.brpreiss.com/books/opus6/ ) і приєднати його до одного HTML чи іншого формату, який я можу використовувати в читальнику електронних книг. Сайти з безкоштовними книгами не мають стандартного підкачки, вони не є блогами чи форумами, тому не знаю, як зробити автоматичне сканування та злиття.

23 ebook web-crawler

2

Чому на електронних адресах @ в електронній пошті іноді пишеться як [at] на веб-сторінках?

Чому @ іноді на веб-сторінках пишеться як [at]? Чи є якась конкретна причина?

15 email html web spam-prevention web-crawler

2

Як сканувати за допомогою wget для завантаження ТІЛЬКИ HTML-файлів (ігноруйте зображення, css, js)

По суті, я хочу сканувати весь сайт за допомогою Wget, але мені це потрібно, щоб НІКОЛИ не завантажувати інші ресурси (наприклад, зображення, CSS, JS тощо). Я хочу лише HTML-файли. Пошуки Google абсолютно марні. Ось команда, яку я спробував: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; …

14 wget web-crawler

4

Використовуючи Wget для рекурсивного сканування сайту та завантаження зображень

Як ви інструктуєте wget рекурсивно сканувати веб-сайт і завантажувати лише певні типи зображень? Я намагався використовувати це для сканування сайту та завантажувати лише зображення Jpeg: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html Однак, незважаючи на те, що page1.html містить сотні посилань на підсторінки, які самі по собі мають прямі …

13 linux bash script web-crawler wget

4

Наскільки «легальним» є скребкування сайту за допомогою CURL? [зачинено]

Наразі це запитання не підходить для нашого формату запитань. Ми очікуємо, що відповіді будуть підкріплені фактами, посиланнями або експертними знаннями, але це питання, ймовірно, вимагатиме дискусій, аргументів, опитувань чи розширеної дискусії. Якщо ви вважаєте, що це питання можна вдосконалити та, можливо, знову відкрити, відвідайте довідковий центр для ознайомлення . Закрито …

12 php curl screen-scraping web-crawler

1

Сканувати веб-сайт для файлів

Привіт Я хотів би завантажити всі PDF-файли з http://www.allitebooks.com/ і хотів би використовувати wget. моя команда, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -rале я вважаю, що наразі вона не може переходити за посиланнями на піддомен, як я можу її виправити, щоб вона завантажувала http://file.allitebooks.com/20170105/Internet%20of%20Things%20and%20Big%20Data%20Technologies Наприклад,% 20для% 20Наступний% 20Генерація% 20Здоров'я.pdf .

-1 pdf wget web-crawler

Запитання з тегом «web-crawler»