揭秘“去重”:压缩、加密和重复数据删除

日期: 2009-11-10 作者:Stephen J. Bigelow翻译:郭镭 来源:TechTarget中国 英文

压缩、加密和重复数据删除 在理解重复数据删除技术的过程中,会遇到一个棘手的问题,即数据的压缩、加密与去重的关系。传统的压缩技术用来消除文件中的冗余内容;重复删除技术用来消除冗余的文件、数据块或字节;加密技术则是改变数据内容原有的结构和顺序。所以,如果数据经过了加密,它就可能无法再进行压缩或去重。理想的做法是,数据首先应该经过压缩或去重,然后再根据需要进行加密处理。

一个很容易实现的方案是,在主机端使用备份软件对数据进行压缩或去重,然后在数据传输到备份设备的过程中,利用专用的装置或是磁带机对数据流进行加密。但是,如果我们想在目标端再做去重处理的话,这个过程就没那么容易实现了。比方说,备份数据流经过……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

压缩、加密和重复数据删除

在理解重复数据删除技术的过程中,会遇到一个棘手的问题,即数据的压缩、加密与去重的关系。传统的压缩技术用来消除文件中的冗余内容;重复删除技术用来消除冗余的文件、数据块或字节;加密技术则是改变数据内容原有的结构和顺序。所以,如果数据经过了加密,它就可能无法再进行压缩或去重。理想的做法是,数据首先应该经过压缩或去重,然后再根据需要进行加密处理。一个很容易实现的方案是,在主机端使用备份软件对数据进行压缩或去重,然后在数据传输到备份设备的过程中,利用专用的装置或是磁带机对数据流进行加密。但是,如果我们想在目标端再做去重处理的话,这个过程就没那么容易实现了。比方说,备份数据流经过了一个带内的加密装置处理之后,进入带有去重功能的存储系统(像Sepaton S2100虚拟磁带库),加密过的数据就不能再做进一步的压缩和去重处理了。

Data Domain公司正极力地宣传他的VTL和NAS,其产品线型号非常丰富,从用于企业分支机构的低端产品DD410,到真正的企业级产品DDX系列,都采用了基于in-band模式的数据去重技术,而且为了避免出现哈希碰撞,还采用了“SHA-1”兼“私有”两重哈希算法。数据的索引保存在装置内部的NVRAM(非易失性随机存取存储器)中。Data Domain的设备提供的吞吐量只有110MB/秒,性能相对较低,但该公司称通过采用多机集群的方式可以提升数据吞吐性能。

Diligent Technologies公司的企业级VTL产品ProtecTier也提供in-band模式的去重功能。与Data Domain不同,它只使用单一的私有算法;另一个区别是,它用光纤通道磁盘来存放索引数据,潜在地提高了索引处理的性能。测试结果显示,Diligent产品的性能高达400MB/秒。昆腾公司也采用了与Diligent相似的做法,其产品线包括DXi3500,DXi5500和DXi7500等支持重复数据删除的VTL设备。此外,昆腾还把基于in-band索引处理和私有哈希算法的去重技术纳入到公司的StorNext文件系统产品中。相比之下,飞康公司的策略则有所不同,它的Single Instance Repository (SIR)单实例存储VTL使用了基于SHA - 1和MD5的哈希算法,以及out-of-band去重模式。

相对于上面提到的专业备份设备,重复数据删除在其他的领域也有应用。ExaGrid System公司在其NAS装置中集成了out-of-band模式的数据去重功能。ExaGrid使用的是基于byte字节的去重级别而不是基于bit位,因为粒度较大,所以它的索引内容编制起来更简单,检索速度也更快。ExaGrid公司还对各种备份应用软件的通用数据模型进行了分析,以帮助提升其产品的检索和索引的性能。还有,NEC美国公司推出的Hydrastor网格备份系统,采用一个专用的进程在subfile(子文件)级别进行去重处理。NEC宣称在不影响存储性能的前提下,能够实现75%的重复数据删除比率。

Network Appliance(NetApp)的NearStore R200和FAS系列存储系统具有块级(block-level)重复数据删除功能。该技术基于NetApp的Advanced Single Instance Storage(ASIS,高级单实例存储)特性,给每个数据块生成一个16位的校验码,利用校验码的比对结果筛选出可能存在冗余的数据块,随后,将这些可能存在冗余的数据块做逐位bit的比较,完全相同的数据块被丢弃。NetApp的技术可以实现基于主存储系统的重复数据删除。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。