这是我的问题:我需要将很多(最多 60 TB)大文件(通常每个 30 到 40 GB)归档到 tar 文件中。我想在归档之前对这些文件进行校验和(md5、sha1 等);但是,不读取每个文件两次(一次用于校验和,两次用于 tar'ing)或多或少是实现非常高的归档性能的必要条件(LTO-4 需要持续 120 MB/s,并且备份窗口是有限的)。
所以我需要一些方法来读取文件,在一侧提供校验和工具,并在另一侧构建一个 tar 到磁带,沿着:
tar cf - files | tee tarfile.tar | md5sum -
除了我不想要整个存档的校验和(这个示例 shell 代码就是这样做的),而是存档中每个单独文件的校验和。
我研究过 GNU tar、Pax、Star 选项。我查看了Archive::Tar的来源。我认为没有明显的方法可以实现这一目标。看来我必须用 C 或类似语言手动构建一些东西才能实现我需要的东西。Perl/Python/etc 根本不会降低性能,并且各种 tar 程序都缺少必要的“插件架构”。在我开始编写代码之前,有谁知道任何现有的解决方案?
在继续重写 tar 之前,您可能想要分析一下读取两次数据的快速简便的方法,因为它可能不会比一次执行慢多少。
这里实现了两遍方法:
http://www.g-loaded.eu/2007/12/01/veritar-verify-checksums-of-files-within-a-tar-archive/
单线:
虽然 md5sum 确实与 tar 并行从磁盘读取每个文件,而不是通过管道获取数据流,但 Linux 磁盘缓存应该使第二次读取从内存缓冲区中读取,这不应该真的比标准输入读取。你只需要确保你的磁盘缓存中有足够的空间来存储足够的每个文件,第二个阅读器总是从缓存中读取,并且没有远远落后于必须从磁盘检索
这是一个示例 Python 脚本。它在将文件添加到存档时计算文件的校验和。在脚本结束时,校验和文件被添加到存档中。
解压时,使用 chksum_file 验证校验和
我认为您的问题是 tar 的设计问题,因为 tar 不允许通过内容表在存档文件内进行随机访问/定位,因此所有协议都将是文件而不是基于缓冲区的。
因此,您可能会查看允许随机访问的不同格式,例如 PAX 或 DAR。
最近的档案格式通常包含一些用于文件验证的哈希,但它们有一个类似的问题:您不能总是选择自己的哈希函数,也不能保留哈希的本地副本。
您可能希望保存哈希的本地副本,与嵌入存档本身的哈希不同:例如,如果存档离线存储(在磁带上或读取成本高昂的数据中心)并且您想要验证文件/目录的本地副本。
7zip有几个选项,比如
7z h
自定义散列和7z l -slt
列出所有散列等等,但是如果你想要一个 md5 或 sha1 散列列表怎么办?您可以使用-bb
and-bs
来控制详细程度并重用已接受答案中提到的 George Notaras 方法: