重复数据删除技术在磁盘备份中的应用(上)

日期: 2009-08-04 作者:Lauren Whitehouse翻译:郭镭 来源:TechTarget中国 英文

厂商宣称重复数据删除技术能够减少数据的传输量,除去存储的冗余部分,以此来优化网络带宽和存储容量。用户在使用磁盘备份方案时,如果能高效地节约数据存储空间,那么就能将数据保存更长时间或者备份更多的应用。此外还能提高数据快速恢复的可行性。而减少网络中数据的传输量,也可以提高备份恢复的性能。

如果是广域网环境,减少数据传输量的意义就更加明显,用户可以更容易地实现远程备份或容灾。最后,数据的去重可以帮助用户节约时间和成本,原因是数据的恢复速度更快,而且随着备份存储设备的减少,空间、电力、散热的成本消耗也在降低。总之,数据去重技术可以从多方面改进数据保护的效果。 选择重复数据删除产品时要读一读产品介绍 最容……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

厂商宣称重复数据删除技术能够减少数据的传输量,除去存储的冗余部分,以此来优化网络带宽和存储容量。用户在使用磁盘备份方案时,如果能高效地节约数据存储空间,那么就能将数据保存更长时间或者备份更多的应用。此外还能提高数据快速恢复的可行性。而减少网络中数据的传输量,也可以提高备份恢复的性能。如果是广域网环境,减少数据传输量的意义就更加明显,用户可以更容易地实现远程备份或容灾。最后,数据的去重可以帮助用户节约时间和成本,原因是数据的恢复速度更快,而且随着备份存储设备的减少,空间、电力、散热的成本消耗也在降低。总之,数据去重技术可以从多方面改进数据保护的效果。

选择重复数据删除产品时要读一读产品介绍

最容易产生混淆的说法是关于存储容量的优化问题,我们理解的重复数据删除通常会包含多种存储容量优化技术。在数据保护过程中,几种常见的消除数据冗余,降低数据传输和存储量的方法是“归档”、“单实例存储”,“永远的增量备份”、“增量数据差异对比”和“数据压缩”几项。不幸的是,重复数据删除厂商必须通过大量的营销宣传活动,才能让客户了解这些专业术语,以及搞清楚它们到底能做什么。

在数据保护过程中,使用重复数据删除技术的主要目的是减少磁盘空间的使用和降低带宽需求。该功能即可以通过备份软件实现,也可以是磁盘存储系统的一部分。重复数据删除技术通过扫描数据来识别并去除冗余部分。例如,数据去重引擎用散列算法为每个数据对象创建一个唯一的数据指纹,并且通过索引去核对。数据在存储设备中只保留唯一的一份,如果有重复的数据,则只为其创建一个指针指向之前保存的那个对象。

数据去重的粒度

另一个需要关注的问题是重复数据删除方案所提供的数据处理粒度。一般来说,我们可以在文件、数据块或字节等几个技术层次实现去重。而研究各种粒度之间的差别则从以下几个方面综合考虑,主要包括:运算时间、准确度、重复数据的检测水平、索引的大小和解决方案的潜在可扩展性。

文件级的数据去重(或者叫做“单实例存储”)一般是通过检查文件的属性来确定重复文件,然后从备份介质上将冗余文件清除。这种方法去重的效果不如其他粒度级别,但是技术比较简单,而且速度快。

块级去重是将数据切分成大小相同的块。一般而言,每个块都被赋予一个“指纹”,作为其唯一性的标识,通过“指纹”与数据索引(指纹库)的比较判断是否为重复数据。如果块分割的越小,块数量相应就越多,索引也就越多。通过越多的索引比较,我们就能够发现并且删除越多的重复部分(产生较高的数据去重比率)。不过,我们还要评估一个重要的指标--就是I/O的压力,它与数据比较的频度成正比,加之数据块越小索引就越大,这可能导致备份性能的下降(所以块太多也有负面影响)。此外,数据块太小对恢复的性能也有影响,因为恢复时必须要把切割的数据块重新整合起来。

字节级去重过程是通过在新旧文件之间进行逐个字节的比较实现的。虽然这是唯一一种能够保证充分去除冗余的方法,但是对性能的影响却非常大。还有一些厂商采取了以上三种粒度之外的其他的办法,他们专注于研究备份数据流的格式,通过“理解数据流内容”来识别重复数据。

请继续阅读:重复数据删除技术在磁盘备份中的应用(下)

相关推荐