我有几千个单独 GZip 压缩的文件(当然传递了-n
标志,所以输出是确定性的)。然后他们进入一个 Git 存储库。我刚刚发现,对于其中 3 个文件,Gzip 在 macOS 和 Linux 上产生的输出不同。这是一个例子:
苹果系统
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | shasum -a 256
0ac378465b576991e1c7323008efcade253ce1ab08145899139f11733187e455 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip --fast -n | shasum -a 256
6e145c6239e64b7e28f61cbab49caacbe0dae846ce33d539bf5c7f2761053712 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip -n | shasum -a 256
3562fd9f1d18d52e500619b4a5d5dfa709f5da8601b9dd64088fb5da8de7b281 -
$ gzip --version
Apple gzip 272.250.1
Linux
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | shasum -a 256
0ac378465b576991e1c7323008efcade253ce1ab08145899139f11733187e455 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip --fast -n | shasum -a 256
10ac8b80af8d734ad3688aa6c7d9b582ab62cf7eda6bc1a0f08d6159cad96ddc -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip -n | shasum -a 256
cbf249e3a35f62a4f3b13e2c91fe0161af5d96a58727d17cf7a62e0ac3806393 -
$ gzip --version
gzip 1.6
Copyright (C) 2007, 2010, 2011 Free Software Foundation, Inc.
Copyright (C) 1993 Jean-loup Gailly.
This is free software. You may redistribute copies of it under the terms of
the GNU General Public License <http://www.gnu.org/licenses/gpl.html>.
There is NO WARRANTY, to the extent permitted by law.
Written by Jean-loup Gailly.
这怎么可能?我认为 GZip 实现是完全标准的?
更新:为了确认 macOS 和 Linux 版本在大多数情况下确实产生相同的输出,两个操作系统都输出相同的哈希值:
$ echo "Vive la France" | gzip --fast -n | shasum -a 256
af842c0cb2dbf94ae19f31c55e05fa0e403b249c8faead413ac2fa5e9b854768 -
请注意,GZip 中的压缩算法(Deflate)不是严格双射的。详细说明:对于某些数据,取决于算法实现和使用的参数,可能有不止一种压缩输出。因此,根本无法保证 Apple GZip 和 gzip 1.6 将返回相同的压缩输出。这些输出都是有效的 GZip 流,标准只是保证这些可能的输出中的每一个都将被解压缩为相同的原始数据。
格式应该很稳定,但是看它的描述。它包含一个操作系统 ID 字段。显然,对于 MacOS 和 Linux 以及 FreeBSD 和...
Gzip 格式是标准的,执行 - 不一定。Wikipedia 列出了至少 5 个自由/oss 独立的实现,也有专有的。Apple 清楚地输出了不同的版本字符串。
格式和算法都允许很大的自由度和很多设计选择,这些选择要么是品味问题,要么在不同的用例中更好地工作。
请参阅Zip 文件:历史、解释和实施
我通常希望结果在不同的实现之间是相同的,只有一小部分的小文件。
你确定压缩前的文件是一样的吗?一些 VCS 检查文本文件不同,是否使用 UTF8,windows 或 linux 换行符,...
对原始文件运行 SHA 命令以查看您是否正在执行相同的操作。
也许尝试压缩级别 0 以查看它是否正常工作。
找到一些您可以在此处发布的简单文件,它们在两个系统上的编码方式不同。
文件是否在两个系统上都正确解压缩?再次运行 SHA 命令。
并且总是问自己:这重要吗?:)