我的客户有 150 台 Linux 服务器,分布在各种云服务和物理数据中心。这种基础设施的大部分是收购的项目/团队和预先存在的服务器/安装。
客户端主要用于图像处理,许多服务器都有大型 SAN 或本地磁盘阵列,其中包含数百万个 jpeg/png 文件。
每个盒子上都有一个配置管理代理,我看到很多磁盘都是100%,有的还挺空的,还有很多重复的数据。
客户端现在可以访问 CDN。但目前仅列举可能的情况是一项艰巨的任务。
是否有任何工具可以为所有这些数据创建有用的索引?
我看到了用于管理这些分布式文件系统的GlusterFS和Hadoop HDFS等工具
我想知道是否可以在不实际实现底层卷管理工具的情况下使用这些系统的索引工具。
生成潜在重复数据删除候选索引的起点应该是什么?