我已经尝试过两次从PubChem FTP 服务器下载大型 gzipped xml 文件,一次通过 wget,一次通过 chrome,但两次都导致文件损坏。例如,第一个和它的 MD5 哈希文件在这里:
Compound_000000001_000500000.xml.gz
Compound_000000001_000500000.xml.gz.md5
打开 MD5 文件,我看到:
be9a076090e9b263611c1fc7acf139a6 Compound_000000001_000500000.xml.gz
但是在 xml.gz 文件上运行命令我看到了这个:
$ md5 Compound_000000001_000500000.xml.gz
MD5 (Compound_000000001_000500000.xml.gz) = 6eb5713212c085a1af89b0e31f09f9b9
$ gunzip -tv Compound_000000001_000500000.xml.gz
gunzip: data stream error
gunzip: Compound_000000001_000500000.xml.gz: uncompress failed
Compound_000000001_000500000.xml.gz: NOT OK
所以MD5哈希似乎不匹配......
如果我尝试使用内置的 Mac 功能/应用程序解压缩文件,它会显示错误,它已损坏。我在下载过程中没有错误。
怎么了?我联系了 PubChem 的某个人,他说他们很好,并且 MD5 检测正确。是否有一些我不知道的浏览器设置或阻碍了路由器设置?如何解决此问题,以免文件损坏?
我可以通过 gunzipper 使用 Node.js 流式传输 gzipped 文件,并且我看到了 XML,因此它至少部分正确。但它也会在解析文件时引发 10 秒左右的错误。
会不会有什么奇怪的事情发生?
根据您提供的信息,我想说我认为该文件实际上已损坏。我会向您尝试这样做的任何网站报告并通知他们。此外,如果您安装了 wine(或 Windows 计算机),请尝试使用 7-zip。如果 7-zip 显示错误,那么我知道它实际上已损坏。