重复数据删除产品一览

日期: 2008-03-17 作者:Beth Pariseau翻译:陈晶 来源:TechTarget中国 英文

简言之,重复数据删除就是在一个存储系统中删除重复比特信息的过程。但作为一个市场,它才刚刚起步,不同的厂商为想购买重复数据删除的客户提供了不同的产品,这也使得实现重复数据删除的方式变得多样化,而客户面临的则是困难的抉择。


  提供重复数据删除的厂商基本上可以分为两个阵营:In-line和Post-process。In-line是指数据保存到二级存储系统前进行重复数据删除;而Post-process是指在数据备份处理之后才进行重复数据删除。


  In-line重复删除的优势是备份过程只需进行一次。In-line阵营的厂商认为,设备足够强大时,Post-process的重复删除会增加备份窗口的占用时间。但是Post-process重复删除的优势在于,无需担心由于重复删除处理使CPU负担加重而导致备份服务器和二级存储目标之间出现瓶颈。


  对于这两个方案,专家警告说,客户不应该太关心磁盘的购买问题,尤其是在开始阶段。GlassHouse Technologies公司.数据保护服务部副总裁W. Curtis Preston说:“通常有这样一个误解:比如,用户听到他们只需要1TB就可以存储10TB的备份……然后他们就会去购买1TB的磁盘,只意识到按照定义的理解,他们需要10TB作为初次备份之用。”但实际上,只有在初次备份完成之后,才有可能去进行基于位的比较。


  厂商


  撇开In-line与Post-process的争论不谈,我们将进一步讨论它们之间的差异——不同的厂商及其不同的重复删除方式。


  Data Domain Inc.是最早推出重复数据删除产品的公司,已有750多个客户安装其产品。它的产品既可以通过虚拟磁带库(VTL),也可以通过NAS接口来实现,包括从适用于分支机构的DD410模型到容量高达千兆兆(PT)的DDX系列阵列。Data Domain公司采用In-line方式,采用SHA-1算法,其专有的运算算法用于二级检查。它将比较索引储存到高速非易失性RAM中。使用Data Domain公司的产品,单个数据流可以达到每秒110MB。该公司宣称,它们正在努力开发一个集合所有性能的群集结构,预计可在明年推出。


  Diligent Technologies公司通过其产品ProtecTier VTL来提供重复数据删除服务。该产品也由Hitachi Data Systems (HDS)公司负责经销。Diligent通过在光前通道磁盘中保存比较索引,进行In-line重复删除的处理。据称这样可以加快处理过程,不过,成本也可能增加。和Data Domain公司相比,Diligent公司在重复删除的过程中使用其专有的散列算法。公司称其产品性能指标要优于Data Domain,传输率高达每秒400MB。Diligent和Data Domain有着不同的市场定位——Diligent主要针对高端客户,而Data Domain则针对的是中端客户。Diligent称他们拥有150个客户。


  Avamar,成立于1999年,去年被EMC Corp.公司斥资1.65亿美元并购。它是第一家被大厂商收购的从事重复数据删除的公司。Avamar也使用SHA-1算法,In-line重复数据删除。但与众不同的是,它在源机器(备份服务器)上,而不是在备份目标上工作。它使用中心控制节点来跟踪整个环境中的数据,并进行比较,但是重复删除却是先在每个服务器上完成小块数据的处理,然后再通过网络传输给备份目标,。正因为如此,Avamar公司的重复删除除了可以减小在二级存储目标上的数据外,还可以减少网络堵塞。Avamar公司的重复删除产品需要更换整个备份系统。EMC称,已经计划在明年将其整合到Legato产品家族和VTL中。


  ExaGrid Systems公司的Post-process型重复数据删除是作为其NAS备份产品的一部分推出的。不像其他重复数据删除的产品,ExaGrid的比较是基于字节,而不是位。据称,这样可以简化散列表,具有更好的扩展性,减少基于位的碎片错误空间。ExaGrid的产品也具有“内容识别”,这意味着其产品可以理解主要备份软件产品中常见的数据类型,从而可以相应地找到重复的数据。


  FalconStor Software(飞康软件)公司旗下的VTL和IPStor产品线所具有的单一实例存储库(SIR)特点在市场上尚未成熟。它的Post-process产品使用IPStor虚拟化引擎和SHA-1算法(使用MD5算法进行二次检查),为已备份到VTL、长期的归档数据创建一个独立的重复删除存储库。IBM和Sun Microsystems都是VTL产品的OEM厂商,但IBM不提供SIR,而SUN预计到今年年底才提供。


  Quantum(昆腾)公司去年收购了Advanced Digital Information Corp. (ADIC)公司,融合其技术,于十二月份推出DXi3500和DXi550产品。这种基于VTL的In-line重复删除产品使用的是属于ADIC子公司RockSoft的专利算法。在收购ADIC后,近来Quantum公司将该重复删除技术作为一大特点纳入StorNext文件系统产品,并称这是一个功能一体化的数据迁移和管理引擎。
NEC Corp. of America是日本NEC的子公司,今年三月推出的HydraStor网格备份设备,其重复数据删除技术是一大卖点。Hydrastor专有的重复删除技术, 亦称为DataRedux ,消除了子文件级和传入数据流中的重复数据删除需求。在HydraStor的网格结构中,控制器随着容量的增加而增加,每个节点都与其他的任意节点相感知,这样减少了In-line产品有时可能出现的性能和管理方面的问题。NEC称,可以减少存储量高达至75%,而且性能不受影响


  Network Appliance(NetApp)公司五月十五号宣布,经过第一季度在客户环境下进行的Beta测试,其NearStore R200和FAS存储系统可以提供基于块的的重复数据删除技术。该重复数据删除技术是NetApp公司基于由SnapLock产品发展为 A-SIS(先进单实例存储)产品开发出来的。NetApp使用其Write Anywhere File Layout(WAFL)中的一项功能,将A-SIS加入到滤波器中。WAFL为存储的每个数据块计算出一个16位的校验值。为了进行重复数据删除,散列值将被存入数据库,这样相似的“重复候选”就能够被区分。这些数据块将被一位一位地对比,如果它们是相同的,那么就删除新的数据块。


  NearStore的用户可以得到免费授权并且在主存储上进行基于块的重复数据删除。这在重复数据删除技术中,显得较独特。但是,Netapp公司在关注起产品性能的同时,还需要在其VTL增加该功能。


  Sepaton公司的重复数据删除通过被称为DeltaStor的软件,在其产品S2100-ES2 VTL上来实现的。该Post-process重复删除技术使用其专有的“内容识别”算法。Sepaton公司称目前在重复数据删除领域具有一定的声望。其事实是,它采用了一种称之为“forward referencing”(前向参考)的过程,不同于其他产品采用的“reverse referencing”(反向参考)。反向参考是指,如果再次出现与原始数据相同的数据时,就将其用一个指向原始数据的指针来代替;前向参考只写入最新版本的数据,使得原有的指针可指向最新版本。Sepaton称通过原封不动地保留最新的备份,这种方法可以更快地恢复数据,因为在一般规则下,最近的备份是最有可能得到恢复的。


  Symantec(赛门铁克)公司有一个产品可与Aamar媲美。这就是目前已经纳入到NetBackup软件中,叫做PureDisk的软件。与Avamar一样,该产品使用一个其专有的算法在源机器上进行In-line重复数据删除。最新的NetBackup 6.2版本支持PureDisk进行目标磁带备份,并将PureDisk集成到Backup Reporter的备份监控工具中。6.2版还支持多个PureDisk服务器的故障转移。之前报道说,该公司在6月份的公告中宣布NetBackup的6.5版将进一步加强NetBackup和PureDisk之间的整合。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

陈晶
陈晶

相关推荐