AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 120582
Accepted
wazoox
wazoox
Asked: 2010-03-09 04:17:54 +0800 CST2010-03-09 04:17:54 +0800 CST 2010-03-09 04:17:54 +0800 CST

创建包含校验和的 tar 文件

  • 772

这是我的问题:我需要将很多(最多 60 TB)大文件(通常每个 30 到 40 GB)归档到 tar 文件中。我想在归档之前对这些文件进行校验和(md5、sha1 等);但是,不读取每个文件两次(一次用于校验和,两次用于 tar'ing)或多或少是实现非常高的归档性能的必要条件(LTO-4 需要持续 120 MB/s,并且备份窗口是有限的)。

所以我需要一些方法来读取文件,在一侧提供校验和工具,并在另一侧构建一个 tar 到磁带,沿着:

tar cf - files | tee tarfile.tar | md5sum -

除了我不想要整个存档的校验和(这个示例 shell 代码就是这样做的),而是存档中每个单独文件的校验和。

我研究过 GNU tar、Pax、Star 选项。我查看了Archive::Tar的来源。我认为没有明显的方法可以实现这一目标。看来我必须用 C 或类似语言手动构建一些东西才能实现我需要的东西。Perl/Python/etc 根本不会降低性能,并且各种 tar 程序都缺少必要的“插件架构”。在我开始编写代码之前,有谁知道任何现有的解决方案?

linux archive checksum
  • 4 4 个回答
  • 30366 Views

4 个回答

  • Voted
  1. Best Answer
    bk.
    2010-03-09T19:18:59+08:002010-03-09T19:18:59+08:00

    在继续重写 tar 之前,您可能想要分析一下读取两次数据的快速简便的方法,因为它可能不会比一次执行慢多少。

    这里实现了两遍方法:

    http://www.g-loaded.eu/2007/12/01/veritar-verify-checksums-of-files-within-a-tar-archive/

    单线:

      tar -cvpf mybackup.tar myfiles/| xargs -I '{}' sh -c "test -f '{}' && 
      md5sum '{}'" | tee mybackup.md5
    

    虽然 md5sum 确实与 tar 并行从磁盘读取每个文件,而不是通过管道获取数据流,但 Linux 磁盘缓存应该使第二次读取从内存缓冲区中读取,这不应该真的比标准输入读取。你只需要确保你的磁盘缓存中有足够的空间来存储足够的每个文件,第二个阅读器总是从缓存中读取,并且没有远远落后于必须从磁盘检索

    • 17
  2. user37841
    2010-03-09T04:58:07+08:002010-03-09T04:58:07+08:00

    这是一个示例 Python 脚本。它在将文件添加到存档时计算文件的校验和。在脚本结束时,校验和文件被添加到存档中。

    import hashlib,os
    import tarfile
    def md5(filename):
        ''' function to get md5 of file '''
        d = hashlib.md5()
        try:
            d.update(open(filename).read())
        except Exception,e:
            print e
        else:
            return d.hexdigest()
    
    root="/home"
    outtar=os.path.join(root,"path1","output.tar")
    path = os.path.join(root,"path1")
    chksum_file=os.path.join(root,"path","chksum.txt")
    tar = tarfile.open(outtar, "w")
    o_chksum=open(chksum_file,"w")
    for r,d,f in os.walk(path):
        for files in f:
            filename=os.path.join(r,files)
            digest="%s:%s"%(md5(filename) , filename)
            o_chksum.write(digest+"\n")
            tar.add(os.path.join(r,files))
    
    tar.add(chksum_file)
    tar.close()
    o_chksum.close()
    

    解压时,使用 chksum_file 验证校验和

    • 5
  3. weismat
    2010-03-09T06:42:55+08:002010-03-09T06:42:55+08:00

    我认为您的问题是 tar 的设计问题,因为 tar 不允许通过内容表在存档文件内进行随机访问/定位,因此所有协议都将是文件而不是基于缓冲区的。
    因此,您可能会查看允许随机访问的不同格式,例如 PAX 或 DAR。

    • 1
  4. Nemo
    2015-12-22T06:45:47+08:002015-12-22T06:45:47+08:00

    最近的档案格式通常包含一些用于文件验证的哈希,但它们有一个类似的问题:您不能总是选择自己的哈希函数,也不能保留哈希的本地副本。

    您可能希望保存哈希的本地副本,与嵌入存档本身的哈希不同:例如,如果存档离线存储(在磁带上或读取成本高昂的数据中心)并且您想要验证文件/目录的本地副本。

    7zip有几个选项,比如7z h自定义散列和7z l -slt列出所有散列等等,但是如果你想要一个 md5 或 sha1 散列列表怎么办?您可以使用-bband-bs来控制详细程度并重用已接受答案中提到的 George Notaras 方法:

    7z a -bsp1 -bb3 dir.7z dir 2>&1 \
    | grep "^+" | sed 's,^+ ,,g' | xargs -d "\n" -I § -P 1 sh -c "test -f '§' && sha1sum '§'" \
    | tee dir.sha1
    
    • 0

相关问题

  • 多操作系统环境的首选电子邮件客户端

  • 你最喜欢的 Linux 发行版是什么?[关闭]

  • 更改 PHP 的默认配置设置?

  • 保护新的 Ubuntu 服务器 [关闭]

  • (软)Ubuntu 7.10 上的 RAID 6,我应该迁移到 8.10 吗?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    从 IP 地址解析主机名

    • 8 个回答
  • Marko Smith

    如何按大小对 du -h 输出进行排序

    • 30 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    MikeN 在 Nginx 中,如何在维护子域的同时将所有 http 请求重写为 https? 2009-09-22 06:04:43 +0800 CST
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    0x89 bash中的双方括号和单方括号有什么区别? 2009-08-10 13:11:51 +0800 CST
  • Martin Hope
    Kyle Brandt IPv4 子网如何工作? 2009-08-05 06:05:31 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve