我正在运行一个(基于 Linux 的)rsync 服务器来进行软件分发。我无法控制的(基于 Windows 的)源存储库服务器通过 rsync 将软件包推送到它,全球大约有一百个卫星服务器从它那里拉出,也通过 rsync。
源存储库包含许多大的重复文件。我想通过硬链接替换这些重复项来减少卫星服务器上的磁盘空间和带宽消耗。源存储库的管理员不愿意或无法在源上这样做,所以我试图在分发服务器上这样做。我创建了一个简单的 bash 脚本,基于fdupes
命令查找重复组并将其替换为指向单个文件的硬链接。由于 -H 选项,rsync 传输到卫星服务器会根据需要保留这些硬链接。但是,从源存储库进行的传输会产生不一致的结果。有时会保留重复数据删除。有时,源服务器会重新传输去重组的所有文件,即使源文件没有更改,去重也会中断。
因此我的问题是: rsync 的官方行为是什么,以防它被要求同步两个相同但独立的文件,并且这些文件确实已经存在于目标中并且具有正确的内容,但是作为同一个文件的硬链接?重新传输文件的确切标准是什么?有没有办法确保在这种情况下保留目标中的硬链接,即使源中不存在硬链接?
tl;dr:要通过目的地的硬链接保留文件级重复数据删除,请
rsync
使用该--checksum
选项运行。完整答案,根据我所做的一系列实验:
如果两个文件未在源处硬链接,
rsync
则将每个文件单独同步到目标。它不关心文件是否恰好在目的地硬链接。如果其中一个文件(或两个文件)最终被重新传输,则目的地的硬链接将被破坏,否则它将保持不变。也就是说,即使使用该--hard-links
选项,rsync
也不会仅仅因为文件在源处没有硬链接而破坏目标处的硬链接。重新传输文件的标准取决于
--checksum
(-c
) 和--ignore-times
(-I
) 选项。--checksum
,则仅重新传输源和目标之间大小或校验和不同的文件。因此,如果文件内容没有更改,那么即使源中不存在硬链接,也会保留目标处的硬链接。--ignore-times
,则重新传输所有文件,从而破坏源中不存在的目标上的任何硬链接。rsync
将使用源文件和目标文件的修改时间戳来决定。在这种情况下,如果两个源文件的时间戳不同,则目标处的硬链接将始终断开,因为只有两个时间戳中的一个可以匹配。如果您使用 -H 或 --hard-links 选项,它会保留源硬链接
这不会创建硬链接——你必须在事后通过查找具有相同校验和的文件、删除一个文件并添加一个硬链接来替换它。毕竟,您不希望 rsync 使每个内容重复文件成为指向同一文件的硬链接。想象一下,如果每个长度为 0 的文件都是一个硬链接——你向一个文件添加内容,你就改变了所有文件的内容。