强制 rsync 进入非交互模式

Question

Tilman Schmidt

Asked: 2020-12-11 06:24:13 +0800 CST2020-12-11 06:24:13 +0800 CST 2020-12-11 06:24:13 +0800 CST

当源文件相同但分开时，rsync 是否会保留目标上的硬链接？

772

我正在运行一个（基于 Linux 的）rsync 服务器来进行软件分发。我无法控制的（基于 Windows 的）源存储库服务器通过 rsync 将软件包推送到它，全球大约有一百个卫星服务器从它那里拉出，也通过 rsync。

源存储库包含许多大的重复文件。我想通过硬链接替换这些重复项来减少卫星服务器上的磁盘空间和带宽消耗。源存储库的管理员不愿意或无法在源上这样做，所以我试图在分发服务器上这样做。我创建了一个简单的 bash 脚本，基于fdupes命令查找重复组并将其替换为指向单个文件的硬链接。由于 -H 选项，rsync 传输到卫星服务器会根据需要保留这些硬链接。但是，从源存储库进行的传输会产生不一致的结果。有时会保留重复数据删除。有时，源服务器会重新传输去重组的所有文件，即使源文件没有更改，去重也会中断。

因此我的问题是： rsync 的官方行为是什么，以防它被要求同步两个相同但独立的文件，并且这些文件确实已经存在于目标中并且具有正确的内容，但是作为同一个文件的硬链接？重新传输文件的确切标准是什么？有没有办法确保在这种情况下保留目标中的硬链接，即使源中不存在硬链接？

2 个回答

Voted

Tilman Schmidt · Answer 1 · 2020-12-30T12:43:59+08:00

tl;dr：要通过目的地的硬链接保留文件级重复数据删除，请rsync使用该--checksum选项运行。

完整答案，根据我所做的一系列实验：

如果两个文件未在源处硬链接，rsync则将每个文件单独同步到目标。它不关心文件是否恰好在目的地硬链接。如果其中一个文件（或两个文件）最终被重新传输，则目的地的硬链接将被破坏，否则它将保持不变。也就是说，即使使用该--hard-links选项，rsync也不会仅仅因为文件在源处没有硬链接而破坏目标处的硬链接。

重新传输文件的标准取决于--checksum( -c) 和--ignore-times( -I) 选项。

如果给出该选项--checksum，则仅重新传输源和目标之间大小或校验和不同的文件。因此，如果文件内容没有更改，那么即使源中不存在硬链接，也会保留目标处的硬链接。
如果给出该选项--ignore-times，则重新传输所有文件，从而破坏源中不存在的目标上的任何硬链接。
如果这两个选项都没有给出，rsync将使用源文件和目标文件的修改时间戳来决定。在这种情况下，如果两个源文件的时间戳不同，则目标处的硬链接将始终断开，因为只有两个时间戳中的一个可以匹配。

mpez0 · Answer 2 · 2020-12-11T09:47:54+08:00

mpez0

2020-12-11T09:47:54+08:002020-12-11T09:47:54+08:00

如果您使用 -H 或 --hard-links 选项，它会保留源硬链接

这不会创建硬链接——你必须在事后通过查找具有相同校验和的文件、删除一个文件并添加一个硬链接来替换它。毕竟，您不希望 rsync 使每个内容重复文件成为指向同一文件的硬链接。想象一下，如果每个长度为 0 的文件都是一个硬链接——你向一个文件添加内容，你就改变了所有文件的内容。

1

当源文件相同但分开时，rsync 是否会保留目标上的硬链接？

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

当源文件相同但分开时，rsync 是否会保留目标上的硬链接？

2 个回答

相关问题