Як витягнути всі зовнішні посилання веб-сторінки та зберегти їх у файл?


11

Як витягнути всі зовнішні посилання веб-сторінки та зберегти їх у файл?

Якщо у вас є інструменти командного рядка, це було б чудово.

Відповіді:


18

Вам знадобляться 2 інструменти, рись та awk , спробуйте це:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Якщо вам потрібні нумераційні рядки, скористайтеся командою nl , спробуйте це:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Я не думаю, що це спрацює для відносних URL-адрес
Шрідхар Сарнобат

8

Ось покращення щодо відповіді Лелтона: вам зовсім не потрібно будити, оскільки рись отримала кілька корисних варіантів.

lynx -listonly -nonumbers -dump http://www.google.com.br

якщо ви хочете цифри

lynx -listonly -dump http://www.google.com.br

0
  1. Скористайтеся прекрасним супом для отримання відповідних веб-сторінок.
  2. Використовуйте awk, щоб знайти всі URL-адреси, які не вказують на ваш домен

Я б порекомендував Beautiful Soup над технікою вискоблювання екрана.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.