Якщо ви запитуєте вміст gzip'ed (використовуючи правильний заголовок accept-encoding: gzip), я розумію, що wget не може прочитати вміст. Таким чином, ви отримаєте один, gzipped файл на диску для першої сторінки, на яку ви потрапили, але іншого вмісту немає.
тобто ви не можете використовувати wget для запиту gzipped вмісту та повторного повторного відвідування всього сайту одночасно.
Я думаю, є патч, який дозволяє wget підтримувати цю функцію, але це не у версії дистрибуції за замовчуванням.
Якщо ви включите прапор -S, ви можете вказати, чи відповідає веб-сервер правильним типом вмісту. Наприклад,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
Кодування вмісту чітко визначає gzip, однак для linux.about.com (на даний момент),
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
Це повертається текст / html.
Оскільки у деяких старих браузерах все ще виникають проблеми із вмістом, кодованим gzip, багато сайтів дозволяють використовувати його лише на основі ідентифікації браузера. Вони часто вимикають його за замовчуванням і лише тоді, коли знають, що веб-переглядач може його підтримувати, і зазвичай вони не включають wget у цей список. Це означає, що ви можете виявити, що wget ніколи не повертає вміст gzip, навіть якщо сайт, здається, робить це для вашого браузера.