简单下载wget -c
或curl -O
不下载(超时!),但我在浏览器中看到的是普通页面,
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm
那么,如何通过终端的基本标准命令下载它?
下载时间和内容(一个大的 HTML 文件)必须与我在浏览器中看到的相同。
PS:这个URL是一个典型的案例,对“非常规代理请求”的响应与流行的浏览器请求不同......但是页面是法律的正式文本,所以需要无障碍访问,需要无摩擦:有一个 RFC(或 W3C 建议或类似的)建议或分类什么是“HTTP 无摩擦访问”?
我尝试了许多替代方案......“最小的额外标题”(服务器需要提供正确的内容)是
User-Agent
. 使用它工作正常:...这是一个官方的旧服务和“坏 HTML”,既不是 HTML 源,也不是 HTTP 标头(
-v
选项)显示编码(不是标准的 UTF-8)。完整的解决方案是