紧跟去重的脚步:磁盘库在线去重

日期: 2009-11-16 作者:Jerome M. Wendt翻译:曹同举 来源:TechTarget中国 英文

磁盘库在线去重 磁盘库通常有两种方式来执行重复数据删除:inline 和post-processing。 inline方式是指数据在进入磁盘库时进行重复数据删除,它使用三种方式来降低对性能的影响:哈希算法比较、内部比较和网格架构。 Data Domain公司的DDX磁盘库使用的是基于哈希算法的技术。DDX每次取8KB的数据来计算哈希值或者指针值。

如果指针值不一样的话,就保存这部分数据。在计算哈希值时或者将哈希索引放在内存上会出现性能问题。随着索引数量的不断增加,这些数据会从内存转移到硬盘上。由于硬盘的读写速度比较慢,很容易出现性能问题。

为了解决这个问题,DataDomain发明了SISL(St……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

磁盘库在线去重

磁盘库通常有两种方式来执行重复数据删除:inline 和post-processing。

inline方式是指数据在进入磁盘库时进行重复数据删除,它使用三种方式来降低对性能的影响:哈希算法比较、内部比较和网格架构。

Data Domain公司的DDX磁盘库使用的是基于哈希算法的技术。DDX每次取8KB的数据来计算哈希值或者指针值。如果指针值不一样的话,就保存这部分数据。在计算哈希值时或者将哈希索引放在内存上会出现性能问题。随着索引数量的不断增加,这些数据会从内存转移到硬盘上。由于硬盘的读写速度比较慢,很容易出现性能问题。为了解决这个问题,DataDomain发明了SISL(Stream-Informed Segment Layout)架构,它可以减少读写磁盘的次数,这时磁盘库的性能主要是取决于CPU的频率。

在进行哈希查询时,很容易出现性能问题,Dilignent科技公司的inline产品ProtecTier数据保护平台尝试通过计算比较的方式来解决这个问题。Dilignent公司采用的是自家HyperFactor技术,首先对数据进行扫描并且为它们建立目录,然后寻找跟原来相似数据,这样可以避免对备份数据进行检查。

如果ProtecTier数据保护平台发现新数据跟索引里面的数据相似,然后再做一次byte级别的比较;如果完全相同,就放弃存储这部分数据并加入注释说明。Diligent称ProtecTier数据保护平台可以管理几百个T的数据量。不过这种技术在对磁带库进行计算比较和对重复数据删除后数据进行压缩方面仍有待提高。

NEC美国分公司的Hydrastor产品也是inline方式,它采用了两种不同的技术来提高性能。首先,Hydrastor将重复的大数据块删除。然后,Hydrastor再分析较小的数据块 。在这两个过程中,不同的数据都会被压缩。

为了解决多个过程之间出现性能问题,Hydrastor使用的是网格架构。用户可以通过增加节点来解决性能和空间的问题。跟其他的磁盘库不同,Hydrastor并不能用作虚拟磁带库。它通常被当成NAS设备来使用,使用标准的NFS和CIFS协议,形成一个大的存储池以供服务器使用。如果企业想给特定部门分配或者保留特定空间的话,使用Hydrastor可能会出现问题。

请继续阅读:磁盘库后处理去重

前一部分回顾:数据删除和压缩算法

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。