紧跟去重的脚步:如何估算重复数据删除的比率

日期: 2009-11-15 作者:Jerome M. Wendt翻译:曹同举 来源:TechTarget中国 英文

如何对数据进行识别和去重是现在主流重复数据删除软件的主要区别。希望下面的文章可以帮您找到最合适的重复数据删除软件。——Jerome M. Wendt 在硬盘上进行数据备份是大势所趋。以后将会有越来越多的备份工作从磁带转移到磁盘上,重复数据删除的重要性由此也变的更为明显。

由于每个厂家的产品各不相同,以及对这种技术的不了解,导致许多的存储管理员在选择重复数据删除产品时感到茫然。 在备份过程中,重复数据删除产品主要运行在两个地方:备份软件和硬盘库中。主流的备份软件有以下几款:Asigra公司的Tele-vaulting,EMC公司的Avamar,赛门铁克公司的Veritas Netbackup Pu……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

如何对数据进行识别和去重是现在主流重复数据删除软件的主要区别。希望下面的文章可以帮您找到最合适的重复数据删除软件。——Jerome M. Wendt

在硬盘上进行数据备份是大势所趋。以后将会有越来越多的备份工作从磁带转移到磁盘上,重复数据删除的重要性由此也变的更为明显。由于每个厂家的产品各不相同,以及对这种技术的不了解,导致许多的存储管理员在选择重复数据删除产品时感到茫然。

在备份过程中,重复数据删除产品主要运行在两个地方:备份软件和硬盘库中。主流的备份软件有以下几款:Asigra公司的Tele-vaulting,EMC公司的Avamar,赛门铁克公司的Veritas Netbackup PureDisk。这些备份软件可以在主机级别对数据进行重复数据删除,然后将处理过的数据传递到备份目标盘或者灾难恢复地点。主流的磁盘库厂家包括:Data Domain、Diligent Technologies、Quantum和Sepaton等。重复数据删除软件可以对这些目标端设备进行数据的重复删除,而且不会影响正常的数据备份工作。

下面提到的算法基本适用于任何厂家的重复数据删除产品。重复数据删除对性能有何影响及重复删除后的数据如何管理是两个最受关注的问题。有时使用一种方法可能无法满足备份的需求,这时存储管理员不得不在磁盘库和备份软件中同时运行重复数据删除软件。部署重复数据删除时可能会遇到一些潜在的问题,例如,未进行重复删除的数据能否保存到磁带上,重复数据删除技术是否跟备份软件兼容,必要时能否将重复数据删除功能关闭等。用户一定要在权衡利弊之后再决定是否进行实施。

如何估算重复数据删除的比率

多余的数据:

服务器上多余的数据越多,重复删除的比率就越高。如果用户使用的是同一种操作系统,例如Windows,并且系统上的文件或者数据库数据大部分相同的话,重复数据删除的效果会很理想。如果用户使用不同的操作系统,并且上面的数据文件都不相同,那重复数据删除的比率会比较低。

数据变化的频率:

重复数据删除的比率跟数据变化的频率有关。数据变化的频率越高,重复数据删除的比率越低。平时所说的20:1的重复数据删除比率是基于数据变化率为5%基础之上的。 

数据预压缩:

数据压缩是数据删除算法中的一个关键因素。数据压缩的比率一般为2:1,厂家宣传的重复删除的数据通常已包含压缩功能删除的这部分数据。如果重复数据删除比率是15:1,通过压缩可以达到30:1. 不过如果已经压缩过的数据,例如jpeg,mpeg,zip文件,再次压缩基本不会有什么效果。

数据保存周期:

数据保存的周期可以影响数据重复删除的比率。如果计划让重复数据删除的比率达到10倍或者30倍,需要将数据保存周期设置为20周。如果没有足够的空间存储数据,重复数据删除的比率就会降低。

全备份的次数:

全备份的次数越多,重复数据删除的比率就越高。

请继续阅读第二部分:紧跟去重的脚步:数据删除和压缩算法

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。