企业用户如何正确选择重复数据删除技术

日期: 2011-03-02 来源:TechTarget中国

由于能够降低成本,重复数据删除技术是目前存储市场上最炙手可热的技术之一。但是它又有多种形式,如果企业想要从中选择最适合自己的一种重复数据删除技术,对每一种都得有所了解。

重复数据删除技术的工作原理是,分析数据集或字节流,只存储及/或只发送不重复的数据;重复数据由指向第一次出现的数据的指针来取代。一些IT专业人士认为,重复数据删除和单实例存储(SIS)是一回事,但其实并非如此。两者的主要区别在于,SIS在文件层面分析数据流,所以如果用户重命名了一个文件,SIS会将该文件视作新文件,因而再次存储;如果使用重复数据删除技术,文件的全部内部内容会被视作是重复内容。因而,SIS节省的存储空间比较小。

数据经过所有重复数据删除技术处理后,最终在磁盘上所占的空间小得多,但实现的方法大不相同。两种很流行的方法分别是固定块长度和可变块长度;如果采用后者,重复数据删除引擎可以改变块大小,并且能识别更多的重复模式,因而减小了所存储的数据量,并增加了节省的空间。嵌入式重复数据删除技术(inline deduplication)和处理后重复数据删除技术(post-process deduplication)也有不同的优缺点。如果采用嵌入式重复数据删除,数据在存储到磁盘上之前,先经重复数据删除处理;这种方法不需要有任何额外的磁盘空间以便在重复数据删除之前存储数据,但是存在以下缺点:

延长了完成备份所需的时间,导致在办公时间备份窗口比较长,并降低了性能,另外由于前一个备份任务仍在进行,所以无法开始下一个备份任务;

缺乏灵活性,无法允许重复数据删除处理效果不好的数据保持非重复数据删除的状态;

常常迫使用户为了恢复单单一个文件而将整个备份内容“还原”,因而减慢了恢复速度。

如果采用处理后重复数据删除技术,经重复数据删除处理之前,备份内容暂时放在基于磁盘的缓存存储器(staging storage)上;一些技术允许在缓存了一定数量的数据流后,开始进行重复数据删除处理,这降低了对缓存存储器大小的要求,同时允许备份尽快完成。

所以,虽然处理后重复数据删除技术需要额外的磁盘空间用于缓存存储区,但它能够加快备份速度,缩小备份窗口,允许对重复数据删除处理效果不好的数据不进行重复数据删除处理,而且提供了更快的恢复速度。

重复数据删除在源/客户端或目标/存储器上进行。源端重复数据删除(source-side deduplication)通常使用位于客户端的重复数据删除引擎,该引擎会对照集中放置的重复数据删除索引来查找重复内容,而这个索引通常放在备份服务器或媒体服务器上;只有不重复的块才会被传送到磁盘上。

源端重复数据删除的优点在于,它减少了争夺网络资源的现象,因为通过网络传送的数据比较少。

不过,如果采用源端重复数据删除技术,用户就要为客户端添加散列算法,这是需要大量占用处理器资源的一种算法。这意味着,原本就在超负荷运行的客户端会变得更不堪重负,可能会导致备份速度减慢、备份窗口延长。

目标端重复数据删除(target-side deduplication)一般更适合数据密集型环境,在存储器层面进行重复数据删除处理,因而不需要功能足够强的客户端,因为生成散列值的工作在目标这一层进行。缺点是,更多的数据将通过网络来发送。

不同厂商提供的不同解决方案对进行重复数据删除处理的时间和地点进行了混合搭配:比如说,一种解决方案可能在源端开始进行嵌入式重复数据删除,另一种解决方案可能在目标端开始处理后重复数据删除。

评估重复数据删除技术时要考虑的最后一个标准就是,确定数据保留多长时间;分析的数据越多,发现重复数据的可能性就越大,因而节省的空间就越大。比如说,一个初始的完整备份将只对照自己来进行重复数据删除;但是当第2周的完整备份执行完毕后,只有自第1周以来被更新或被添加的不重复数据才会存储起来。对备份内容进行重复数据删除处理时,此后每周的备份内容会保留起来,占用数量减少的额外磁盘空间,从而让企业可以在现有数量的存储器上存储更多个备份,保持一段更长的时间,几乎不需要从异地存储器来恢复,除非整个站点出现了故障。

那么,总的说来,用户在规划重复数据删除策略时应该考虑哪些方面?他们的目标将影响应该评估哪些重复数据删除技术。

以下是重复数据删除技术方面的一些典型目标和考虑因素:

最大限度地节省磁盘空间;

重复数据删除节省的磁盘空间比SIS更多;

可变块重复数据删除技术节省的磁盘空间比固定块重复数据删除技术更多;

嵌入式重复数据删除技术降低了对磁盘空间的要求;

源端重复数据删除技术可以增加节省的磁盘空间;

经重复数据删除处理后的数据保留更长时间,这允许用户在同样容量的磁盘存储器上存储更多个备份,保留更长的时间;

最大限度地提高灵活性;

处理后重复数据删除技术提供了这种功能:让重复数据删除处理效果不好的数据可以保持非重复数据删除的状态,确保了宝贵时间和处理功能没有浪费在不会得益于重复数据删除的数据上;

如果采用处理后重复数据删除技术,恢复速度更快;

处理后重复数据删除技术允许用户在成本最多低至硬件存储器十分之一的现有存储器上存储数据;

更短的备份窗口;

可以将处理后重复数据删除安排在备份窗口之外进行;

目标端重复数据删除技术不会没有必要地延长备份窗口。

重复数据删除技术可以让用户大幅节省时间、人力资源,当然还有预算。

虽然这项技术在不断发展,但如今市面上已经有几款成熟可靠的解决方案。如果企业选择了满足其自身要求的合适产品,就会发现,过去很少有哪项存储技术像重复数据删除技术这样可以给自己的数据中心带来如此重大的作用。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。