我的客户有 150 台 Linux 服务器,分布在各种云服务和物理数据中心。这种基础设施的大部分是收购的项目/团队和预先存在的服务器/安装。
客户端主要用于图像处理,许多服务器都有大型 SAN 或本地磁盘阵列,其中包含数百万个 jpeg/png 文件。
每个盒子上都有一个配置管理代理,我看到很多磁盘都是100%,有的还挺空的,还有很多重复的数据。
客户端现在可以访问 CDN。但目前仅列举可能的情况是一项艰巨的任务。
是否有任何工具可以为所有这些数据创建有用的索引?
我看到了用于管理这些分布式文件系统的GlusterFS和Hadoop HDFS等工具
我想知道是否可以在不实际实现底层卷管理工具的情况下使用这些系统的索引工具。
生成潜在重复数据删除候选索引的起点应该是什么?
我发现在一堆系统中查找重复文件的最简单方法是为每个系统创建一个文件列表及其 MD5 总和,将它们合并到一个文件中,然后使用 sort + 一个 AWK 脚本来查找重复文件,如下所示:
首先,在每个系统上运行它,根据需要替换路径:
这将在每台主机上生成一个文件 /var/tmp/HOSTNAME.filelist,您必须将其复制到一个中央位置。一旦收集了所有这些文件列表,就可以运行以下命令:
这应该产生一个输出文件,该文件将内容在同一主机内或跨主机重复的块文件分组。
哦,作为第一个脚本(在每个主机上运行)的替代方案,请检查正在使用的备份系统,看看您是否可以从备份报告中获得类似的东西(至少包括 md5 和文件名)。