Eu tenho alguns milhares de arquivos que são compactados individualmente com GZip (passando, é claro, o -n
sinalizador para que a saída seja determinística). Eles então vão para um repositório Git. Acabei de descobrir que para 3 desses arquivos, o Gzip não produz a mesma saída no macOS vs Linux. Aqui está um exemplo:
Mac OS
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | shasum -a 256
0ac378465b576991e1c7323008efcade253ce1ab08145899139f11733187e455 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip --fast -n | shasum -a 256
6e145c6239e64b7e28f61cbab49caacbe0dae846ce33d539bf5c7f2761053712 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip -n | shasum -a 256
3562fd9f1d18d52e500619b4a5d5dfa709f5da8601b9dd64088fb5da8de7b281 -
$ gzip --version
Apple gzip 272.250.1
Linux
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | shasum -a 256
0ac378465b576991e1c7323008efcade253ce1ab08145899139f11733187e455 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip --fast -n | shasum -a 256
10ac8b80af8d734ad3688aa6c7d9b582ab62cf7eda6bc1a0f08d6159cad96ddc -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip -n | shasum -a 256
cbf249e3a35f62a4f3b13e2c91fe0161af5d96a58727d17cf7a62e0ac3806393 -
$ gzip --version
gzip 1.6
Copyright (C) 2007, 2010, 2011 Free Software Foundation, Inc.
Copyright (C) 1993 Jean-loup Gailly.
This is free software. You may redistribute copies of it under the terms of
the GNU General Public License <http://www.gnu.org/licenses/gpl.html>.
There is NO WARRANTY, to the extent permitted by law.
Written by Jean-loup Gailly.
Como isso é possível? Achei que a implementação do GZip era completamente padrão?
ATUALIZAÇÃO: Apenas para confirmar que as versões macOS e Linux produzem a mesma saída na maioria das vezes, ambos os sistemas operacionais produzem o mesmo hash para:
$ echo "Vive la France" | gzip --fast -n | shasum -a 256
af842c0cb2dbf94ae19f31c55e05fa0e403b249c8faead413ac2fa5e9b854768 -
Observe que o algoritmo de compactação (Deflate) no GZip não é estritamente bijetivo. Para elaborar: Para alguns dados, há mais de uma saída compactada possível dependendo da implementação algorítmica e dos parâmetros usados. Portanto, não há garantia de que o Apple GZip e o gzip 1.6 retornarão a mesma saída compactada . Essas saídas são todos fluxos GZip válidos, o padrão apenas garante que todas essas saídas possíveis serão descompactadas para os mesmos dados originais.
O formato deve ser bem estável, mas veja sua descrição . Ele contém um campo para ID do sistema operacional. Obviamente, isso será diferente para MacOS e Linux e FreeBSD e ...
O formato Gzip é padrão, a implementação - não necessariamente. A Wikipedia lista pelo menos 5 implementações independentes de free/oss e também existem outras proprietárias. A Apple claramente gera uma string de versão diferente.
O formato e o algoritmo permitem muita liberdade e muitas opções de design que são uma questão de gosto e/ou funcionam melhor em diferentes casos de uso.
Veja Arquivos Zip: Histórico, Explicação e Implementação
Eu geralmente esperaria que os resultados fossem os mesmos entre diferentes implementações apenas para uma pequena porcentagem de arquivos pequenos.
Tem certeza de que os arquivos antes da compactação são idênticos? Alguns arquivos de texto chekout VCS de forma diferente, usando UTF8 ou não, janelas ou linux newlines, ...
Execute o comando SHA nos arquivos originais para ver se você está fazendo a mesma coisa.
Talvez tente o nível de compactação 0 para ver se isso funciona corretamente.
Encontre alguns arquivos simples que você pode postar aqui que são codificados de forma diferente em ambos os sistemas.
Os arquivos são descompactados corretamente em ambos os sistemas? Execute o comando SHA novamente.
E sempre se pergunte: isso importa? :)