Якщо у вас не встановлені ці інші інструменти, а лише wget, а на сторінці немає форматування просто звичайного тексту та посилань, наприклад, вихідний код або список файлів, ви можете зняти HTML за допомогою sed так:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
Для цього використовується wget, щоб скинути джерело сторінки в STDOUT і sed, щоб зняти будь-які <> пари і що-небудь між ними.
Потім можна перенаправити вихід команди sed на файл, який ви бажаєте створити, використовуючи>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
Примітка. Ви можете виявити, що у файлі, який ви не хочете, є додаткове пробіл (наприклад, рядки з відступом в декількох стовпцях)
Можливо, найпростіше скористатися текстовим редактором, щоб виправити файл (або формат джерела під час завантаження вихідного коду C).
Якщо вам потрібно зробити те ж саме, що потрібно у кожному рядку файлу, ви можете включити команду, щоб зробити це в команді sed (тут знімаючи один провідний пробіл):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
. Це не важко, але це залежить від структури сторінки. Якщо ви надасте посилання, можливо, хтось допоможе вам з точним кодом. Інакшеsed
чиperl
ваші друзі.