我正在探索更有效地利用我们的主存储的选项。
我们当前的 NAS 是带有 HP Storageworks MSA20 的 HP ProLiant DL380 G5,以及另一个我不确定它是什么的磁盘架。
我们的绝大多数文件都是 PDF 文件(数以亿计),具有高度的相似性。
在George Crump 的专家意见(引用自Data Domain的Dedupe Central)中,在粒度部分中,他说:“要有效地重复数据删除,需要在子文件级别使用可变长度段完成。”
这很难找到,但正是我需要的。大多数重复数据删除选项似乎都是基于块的,这对于最大限度地减少备份占用的空间非常有效,因为只有更改的块会被存储,但是基于块的技术不会在我们的块内找到位于不同偏移量的相同段PDF。
前几天我遇到了Ocarina Networks,它看起来正是我们所需要的。
Storage Switzerland 的实验室报告概述 - 主存储的重复数据删除将 Ocarina Networks 和NetApp比作“主存储重复数据删除领域的两个领导者”。
理想情况下,我们希望继续使用我们当前的 NAS,但效率更高。
我遇到的另一个解决方案是Storwize,它似乎执行单个文件的内联压缩,并与重复数据删除解决方案集成。
还有哪些其他解决方案和信息资源?
我发现大多数重复数据删除的黑盒解决方案不如直接内置在存储中的解决方案有效或高效。
例如,黑盒重复数据删除设备将要求您的所有数据在到达您正在使用的任何通用存储之前在两个方向通过它,处理所有数据以进行重复数据删除,而存储阵列(如 NetApp、Data Domain、和许多其他的,允许您在每个卷的基础上控制重复数据删除,并且所有处理都在控制器本身上完成。
如果您打算使用现有的非智能存储但在其前面采用解决方案,我会推荐数据域,但老实说,我会鼓励您升级到可以在内部进行重复数据删除的不同存储系统。
我会研究NetApp V 系列存储控制器。这些允许您将智能磁盘控制器连接到您已经拥有的现有磁盘架硬件。
您正在寻找的技术称为重复数据删除,并且有大量供应商提供重复数据删除。
如果您使用的是 SAN,请致电您的 SAN 供应商,他们会全力以赴,试图向您推销他们的重复数据删除选项。
这是有关如何开始使用重复数据删除的一个很好的资源:
http://www.datadomain.com/dedupe/
我非常了解 MSA 范围,并且我认为您将很难使用现有的数据进行重复数据删除,因为开始重复数据删除是一项相当缓慢且 IO 密集型的工作,最好由实际的 SAN/NAS 控制器完成。在备份方案中略有不同,因为备份媒体服务器可以随时进行重复数据删除,但对于实时数据,保持数据完整性和整体性能很重要,我不确定是否有任何可用的“售后附加组件”真的会给你你需要的。
Backup Central 的归档磁盘目标列表
(不要与他们更广泛的Disk Targets for Backup列表混淆)
值得注意的是,Ocarina系统会搜索原始文件系统并查看文件是否与策略匹配。如果是这样,Ocarina 盒子会扩展文件并应用其专有的压缩算法。然后它将这个新文件写入一个新的不同文件系统,可选择删除原始文件。
显然,读取端可以设置一个 fuse 文件系统,这样对原始文件系统的读取可以被 fuse 拦截以使用“优化”版本,这样听起来比原来的销售人员描述的更透明。
balesio 的 FILEminimizer Server 是一种纯软件解决方案,可优化您的 Office 和图像文件堆栈,保留本机文件格式。您最多可以释放这些文件当前占用的存储容量的 70%。 www.balesio.com/fileminimizerserver