揭秘“去重”:确保重复数据删除系统的扩展性和可靠性

日期: 2009-11-10 作者:Stephen J. Bigelow翻译:郭镭 来源:TechTarget中国 英文

确保重复数据删除系统的扩展性和可靠性 实施重复数据删除之前,最重要的是考虑系统可扩展性的问题。在存储容量不断增长,去重粒度越来越小的情况下,必须让性能保持在一个可接受的程度,同时还要保证的哈希算法的稳定性,不会因为算法的错误导致去重时出现数据丢失问题。 去重系统在处理一个新的数据单元时,会生成一个新的哈希值,将该值与哈希索引中已经存在的其他值做比较,如果与索引中某个记录完全符合,系统就认为该数据单元属于重复数据。重复的数据单元不会在磁盘上做完整保存,只保留一个与已有数据相关联的片段(或指针)。

如果索引中没有发现与新数据单元相同的哈希值,那么系统认为该数据单元与已有的数据不存在重复,可以正常完整……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

确保重复数据删除系统的扩展性和可靠性

实施重复数据删除之前,最重要的是考虑系统可扩展性的问题。在存储容量不断增长,去重粒度越来越小的情况下,必须让性能保持在一个可接受的程度,同时还要保证的哈希算法的稳定性,不会因为算法的错误导致去重时出现数据丢失问题。

去重系统在处理一个新的数据单元时,会生成一个新的哈希值,将该值与哈希索引中已经存在的其他值做比较,如果与索引中某个记录完全符合,系统就认为该数据单元属于重复数据。重复的数据单元不会在磁盘上做完整保存,只保留一个与已有数据相关联的片段(或指针)。如果索引中没有发现与新数据单元相同的哈希值,那么系统认为该数据单元与已有的数据不存在重复,可以正常完整的做保存。

有时候,即便数据的内容不是重复的,也会出现哈希值完全相同的情况,这种错误的识别,叫做哈希碰撞。哈希碰撞可能会导致数据丢失,通常,有两种减少哈希碰撞的方法,一个是厂商可以选择在去重产品中使用多重哈希算法;如果只有一种哈希算法,那么另一个方法是减小数据的粒度,在bit级执行数据的比对。

注意,以上两种方法也存在一些问题。它们都需要系统付出更多的计算资源、索引的性能会降低、去重处理的过程也更慢。过程更加精细,处理的数据片更小,粒度更低的结果会导致索引变得非常庞大,反过来又增加了碰撞发生的概率,命中率也更低。

最后一个问题是:一个公司在建立存储应用基础架构时,如何评估重复数据删除与传统的压缩、加密技术之间的关系?普通的压缩技术主要针对文件,加密则是扰乱数据内容,使数据被完全随机并且无法被读取。压缩和加密在数据存储方面都发挥着重要的作用,但是如果先用它们消除数据中的冗余部分,则不利于去重的处理。因此,如果我们需要在一个环境中同时使用这三种技术的话,建议首先执行数据去重,然后再做压缩或加密处理。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。