AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / computer / 问题 / 1633073
Accepted
Saaru Lindestøkke
Saaru Lindestøkke
Asked: 2021-03-14 09:37:48 +0800 CST2021-03-14 09:37:48 +0800 CST 2021-03-14 09:37:48 +0800 CST

为什么使用 Python 的 tar 库时 tar.xz 文件比 macOS tar 小 15 倍?

  • 772

语境

我正在压缩 ~1.3 GB 文件夹,每个文件夹都包含 1440 个 JSON 文件,发现在 macOS 或Raspbian 10 (Buster)上使用tar命令和 Python 的内置库之间存在 15 倍的差异tarfile

最小的工作示例

此脚本比较两种方法:

#!/usr/bin/env python3

from pathlib import Path
from subprocess import call
import tarfile

fullpath = Path("/Users/user/Desktop/temp/tar/2021-03-11")
zsh_out = Path(fullpath.parent, "zsh-archive.tar.xz")
py_out = Path(fullpath.parent, "py-archive.tar.xz")

# tar using terminal
# tar cJf zsh-archive.tar.xz folderpath
call(["tar", "cJf", zsh_out, fullpath])

# tar using tarfile library
with tarfile.open(py_out, "w:xz") as tar:
    tar.add(fullpath, arcname=fullpath.stem)

# Print filesizes
print(f"zsh tar filesize: {round(Path(zsh_out).stat().st_size/(1024*1024), 2)} MB")
print(f"py tar filesize: {round(Path(py_out).stat().st_size/(1024*1024), 2)} MB")

输出是:

zsh tar filesize: 23.7 MB
py tar filesize: 1.49 MB

我使用的版本如下:

  • tar在 macOS 上:bsdtar 3.3.2 - libarchive 3.3.2 zlib/1.2.11 liblzma/5.0.5 bz2lib/1.0.6
  • tar在 Raspbian 10 上:xz (XZ Utils) 5.2.4 liblzma 5.2.4
  • tarfilePython库:0.9.0

我尝试过的事情

压缩后,我提取了两个档案并将生成的文件夹与:

diff -r py-archive-expanded zsh-archive-expanded

没有区别。

如果我直接比较两个 tar 档案,它们似乎不同:

➜ diff zsh-archive.tar.xz py-archive.tar.xz
Binary files zsh-archive.tar.xz and py-archive.tar.xz differ

如果我使用 Quicklook(和 Betterzip 插件)检查档案,我会发现档案中的文件以不同的方式排序:

左边是zsh-archive.tar.xz,右边是py-archive.tar.xz:

在此处输入图像描述在此处输入图像描述

zsh 存档使用未知顺序,Python 存档按修改日期对文件进行排序。我不确定这是否重要。

问题

到底是怎么回事?使用 Python 库压缩数据是否会丢失一些东西?15 倍的大小差异是否表明存在某些问题?或者我可以安全地继续使用高效的 Python 实现吗?

macos python
  • 3 3 个回答
  • 58224 Views

3 个回答

  • Voted
  1. Best Answer
    Saaru Lindestøkke
    2021-03-14T15:22:54+08:002021-03-14T15:22:54+08:00

    简短回答:是的,使用 Pythontarlib压缩数据是安全的,与 BSD 相比没有任何损失tar。

    基本问题:排序

    我认为根本问题是没有任何排序选项的 BSDtar和 GNUtar以未定义的顺序将文件放入存档中。

    GNUtar有一个--sort选项:

    根据 对目录条目进行排序ORDER,其中之一是none、name或inode。
    默认值为--sort=none,它以与操作系统返回的顺序相同的顺序存储归档成员。

    测试 GNUtar

    tar为了测试这一点,我在我的 Mac 上安装了 GNU :

    brew install gnu-tar
    

    然后对同一个文件夹进行 tar 处理,但可以--sort选择:

    gtar --sort='name' -cJf zsh-archive-sorted.tar.xz /Users/user/Desktop/temp/tar/2021-03-11
    

    zsh-archive-sorted.tar.xz存档为 1.5 MB,等于 Python 库创建的存档大小。

    按排序顺序连接

    排序对最终存档大小的影响通过首先连接所有按名称排序的 JSON 文件(在其开头具有创建 unixtime)然后使用 BSD 进行 tarring 来进一步证明tar:

    cat *.json > all.txt
    tar cJf zsh-cat-archive.tar.xz all.txt
    

    zsh-cat-archive.tar.xz存档也是 1.5 MB 。

    Pythontarfile排序

    最后, Python函数的文档TarFile.add确认 Pythontarfile默认排序:

    默认情况下递归添加目录。这可以通过将 recursive 设置为 False 来避免。递归按排序顺序添加条目。

    为什么排序很重要

    我认为排序对我的情况有如此影响的原因如下:

    我的 JSON 文件包含数百辆汽车的位置。我每分钟都会读出所有位置,但只有少数几个位置每分钟都有不同的值。
    通过按名称对文件进行排序,两个后续文件之间几乎没有不同的字符。显然这对压缩效率非常有利。

    • 307
  2. Giacomo1968
    2021-03-14T09:56:35+08:002021-03-14T09:56:35+08:00

    尝试在 macOS 命令行中设置压缩级别。

    我知道您在询问xz但在此答案中进行了解释,在旧版本的 GZip 上,您可以使用如下环境变量设置压缩级别:

    GZIP=-9 tar cf zsh-archive.tar.xz folderpath
    

    也就是说,这似乎只适用于 GZip 1.8,并且在以后的版本中被贬值。所以使用-I/--use-compress-program=COMMAND选项 tar 代替;请注意,此选项在 macOS 上可能不起作用,但无论如何都放在这里以防万一。因此命令将更改为:

    tar -I 'gzip -9' -cf zsh-archive.tar.xz folderpath
    

    是的,这些示例将压缩存档 Gzip 而不是 . xz,但您可以轻松地将命令更改为此使用,xz如下所示:

    tar -I 'xz -9' -cf zsh-archive.tar.xz folderpath
    

    xz压缩级别范围从-0到,-9默认为-6; -9最高压缩级别也是如此。

    请注意,xz默认情况下未安装在 macOS 上。要在 macOS 上安装它,您必须先安装Homebrew,然后xz通过 Homebrew 安装,如下所示:

    brew install xz
    
    • 6
  3. Louis Thompson
    2021-03-15T11:01:04+08:002021-03-15T11:01:04+08:00

    让我想知道 Python 用什么来压缩

    http://tukaani.org/xz/

    它可能使用 liblzma 中的函数调用。Tar可能正在通过 xz shell 命令进行管道传输。

    快速评论--sort=name:

    排序选项是对 GNU tar 的相对较新的增强,并在 tar 版本 1.28 中引入。

    它可能永远不会在 BSD tar 中实现。

    • 4

相关问题

  • 如何使用键盘快捷键在 macOS 终端中选择一行?

  • weechat, tig, htop, ranger等没有颜色

  • 如何在 macOS 的终端中切换切换(连续性)?

  • 如何强制chrome在macos中使用pac文件?

  • “npm config set prefix”在 macOS Mojave 中的用户拥有的目录上失败

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何减少“vmmem”进程的消耗?

    • 11 个回答
  • Marko Smith

    从 Microsoft Stream 下载视频

    • 4 个回答
  • Marko Smith

    Google Chrome DevTools 无法解析 SourceMap:chrome-extension

    • 6 个回答
  • Marko Smith

    Windows 照片查看器因为内存不足而无法运行?

    • 5 个回答
  • Marko Smith

    支持结束后如何激活 WindowsXP?

    • 6 个回答
  • Marko Smith

    远程桌面间歇性冻结

    • 7 个回答
  • Marko Smith

    子网掩码 /32 是什么意思?

    • 6 个回答
  • Marko Smith

    鼠标指针在 Windows 中按下的箭头键上移动?

    • 1 个回答
  • Marko Smith

    VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

    • 8 个回答
  • Marko Smith

    应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

    • 5 个回答
  • Martin Hope
    Saaru Lindestøkke 为什么使用 Python 的 tar 库时 tar.xz 文件比 macOS tar 小 15 倍? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh 如何减少“vmmem”进程的消耗? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Windows 10 搜索未加载,显示空白窗口 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    v15 为什么通过电缆(同轴电缆)的千兆位/秒 Internet 连接不能像光纤一样提供对称速度? 2020-01-25 08:53:31 +0800 CST
  • Martin Hope
    andre_ss6 远程桌面间歇性冻结 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney 为什么在 URL 后面加一个点会删除登录信息? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension 鼠标指针在 Windows 中按下的箭头键上移动? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca 我所有的 Firefox 附加组件突然被禁用了,我该如何重新启用它们? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK 是否可以使用文本创建二维码? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 更改 git init 默认分支名称 2019-04-01 06:16:56 +0800 CST

热门标签

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve