多操作系统环境的首选电子邮件客户端

Question

wazoox

Asked: 2010-03-09 04:17:54 +0800 CST2010-03-09 04:17:54 +0800 CST 2010-03-09 04:17:54 +0800 CST

创建包含校验和的 tar 文件

772

这是我的问题：我需要将很多（最多 60 TB）大文件（通常每个 30 到 40 GB）归档到 tar 文件中。我想在归档之前对这些文件进行校验和（md5、sha1 等）；但是，不读取每个文件两次（一次用于校验和，两次用于 tar'ing）或多或少是实现非常高的归档性能的必要条件（LTO-4 需要持续 120 MB/s，并且备份窗口是有限的）。

所以我需要一些方法来读取文件，在一侧提供校验和工具，并在另一侧构建一个 tar 到磁带，沿着：

tar cf - files | tee tarfile.tar | md5sum -

除了我不想要整个存档的校验和（这个示例 shell 代码就是这样做的），而是存档中每个单独文件的校验和。

我研究过 GNU tar、Pax、Star 选项。我查看了Archive::Tar的来源。我认为没有明显的方法可以实现这一目标。看来我必须用 C 或类似语言手动构建一些东西才能实现我需要的东西。Perl/Python/etc 根本不会降低性能，并且各种 tar 程序都缺少必要的“插件架构”。在我开始编写代码之前，有谁知道任何现有的解决方案？

4 个回答

Voted

bk. · Answer 1 · 2010-03-09T19:18:59+08:00

Best Answer

bk.

2010-03-09T19:18:59+08:002010-03-09T19:18:59+08:00

在继续重写 tar 之前，您可能想要分析一下读取两次数据的快速简便的方法，因为它可能不会比一次执行慢多少。

这里实现了两遍方法：

http://www.g-loaded.eu/2007/12/01/veritar-verify-checksums-of-files-within-a-tar-archive/

单线：

  tar -cvpf mybackup.tar myfiles/| xargs -I '{}' sh -c "test -f '{}' && 
  md5sum '{}'" | tee mybackup.md5

虽然 md5sum 确实与 tar 并行从磁盘读取每个文件，而不是通过管道获取数据流，但 Linux 磁盘缓存应该使第二次读取从内存缓冲区中读取，这不应该真的比标准输入读取。你只需要确保你的磁盘缓存中有足够的空间来存储足够的每个文件，第二个阅读器总是从缓存中读取，并且没有远远落后于必须从磁盘检索

17

user37841 · Answer 2 · 2010-03-09T04:58:07+08:00

user37841

2010-03-09T04:58:07+08:002010-03-09T04:58:07+08:00

这是一个示例 Python 脚本。它在将文件添加到存档时计算文件的校验和。在脚本结束时，校验和文件被添加到存档中。

import hashlib,os
import tarfile
def md5(filename):
    ''' function to get md5 of file '''
    d = hashlib.md5()
    try:
        d.update(open(filename).read())
    except Exception,e:
        print e
    else:
        return d.hexdigest()

root="/home"
outtar=os.path.join(root,"path1","output.tar")
path = os.path.join(root,"path1")
chksum_file=os.path.join(root,"path","chksum.txt")
tar = tarfile.open(outtar, "w")
o_chksum=open(chksum_file,"w")
for r,d,f in os.walk(path):
    for files in f:
        filename=os.path.join(r,files)
        digest="%s:%s"%(md5(filename) , filename)
        o_chksum.write(digest+"\n")
        tar.add(os.path.join(r,files))

tar.add(chksum_file)
tar.close()
o_chksum.close()

解压时，使用 chksum_file 验证校验和

5

weismat · Answer 3 · 2010-03-09T06:42:55+08:00

weismat

2010-03-09T06:42:55+08:002010-03-09T06:42:55+08:00

我认为您的问题是 tar 的设计问题，因为 tar 不允许通过内容表在存档文件内进行随机访问/定位，因此所有协议都将是文件而不是基于缓冲区的。
因此，您可能会查看允许随机访问的不同格式，例如 PAX 或 DAR。

1

Nemo · Answer 4 · 2015-12-22T06:45:47+08:00

Nemo

2015-12-22T06:45:47+08:002015-12-22T06:45:47+08:00

最近的档案格式通常包含一些用于文件验证的哈希，但它们有一个类似的问题：您不能总是选择自己的哈希函数，也不能保留哈希的本地副本。

您可能希望保存哈希的本地副本，与嵌入存档本身的哈希不同：例如，如果存档离线存储（在磁带上或读取成本高昂的数据中心）并且您想要验证文件/目录的本地副本。

7zip有几个选项，比如7z h自定义散列和7z l -slt列出所有散列等等，但是如果你想要一个 md5 或 sha1 散列列表怎么办？您可以使用-bband-bs来控制详细程度并重用已接受答案中提到的 George Notaras 方法：

7z a -bsp1 -bb3 dir.7z dir 2>&1 \
| grep "^+" | sed 's,^+ ,,g' | xargs -d "\n" -I § -P 1 sh -c "test -f '§' && sha1sum '§'" \
| tee dir.sha1

0

创建包含校验和的 tar 文件

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

从 IP 地址解析主机名

如何按大小对 du -h 输出进行排序

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

创建包含校验和的 tar 文件

4 个回答

相关问题