CAS和重复数据删除:归档双雄

日期: 2008-03-13 作者:Stephen J. Bigelow翻译:陈晶 来源:TechTarget中国 英文

本文将深入探讨CAS和重复数据删除,讨论它们的用途并总结这两种技术的优缺点。   在存储领域,归档已经引起了人们越来越广泛的关注。法规遵循的的要求也推动用户去部署一些归档产品,同时为了处理日益增加的数据量以便为公司节省开支,也引发了业界寻找新办法来解决这一难题的广泛兴趣。数据缩减看起来是一个解决办法,而固定内容寻址存储(content-addressed storage,简称CAS)和重复数据删除(data deduplication)已经运用于处理日益庞大的数据增长。

虽然它们有时会被混淆,但CAS和重复数据删除是两种不同的技术。虽然它们都应用在数据归档中,但是,CAS可能包括,也可能不包括通……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

本文将深入探讨CAS和重复数据删除,讨论它们的用途并总结这两种技术的优缺点。

  在存储领域,归档已经引起了人们越来越广泛的关注。法规遵循的的要求也推动用户去部署一些归档产品,同时为了处理日益增加的数据量以便为公司节省开支,也引发了业界寻找新办法来解决这一难题的广泛兴趣。数据缩减看起来是一个解决办法,而固定内容寻址存储(content-addressed storage,简称CAS)和重复数据删除(data deduplication)已经运用于处理日益庞大的数据增长。虽然它们有时会被混淆,但CAS和重复数据删除是两种不同的技术。虽然它们都应用在数据归档中,但是,CAS可能包括,也可能不包括通常理解为旨在减少存储数据量的重复数据删除。

  CAS已经是一类独特的产品,但重复数据删除还根本算不上一种产品。它经常作为很多非CAS产品的一大特点而出现。许多文件管理的应用软件,尤其是对电子邮件的管理就使用了重复数据删除技术,例如:Mimosa System公司的针对Microsoft Exchange的NearPoint归档软件。另外很多非CAS的软硬件产品也采用了该技术,例如某些虚拟磁带库(VTLs),比方说FalconStor,以及一些远程备份软体公司,如Asigra公司等。

  重复数据删除通过在块等级上寻找重复块以检验要保存的数据。一旦它找到了重复块就会用一个指向原始备份块的指针将其代替。至于能节省多大的存储空间,这取决于被存储的数据性质来决定。在某些情况下,例如电子邮件,它的压缩比可以达到20:1,甚至更高。

  对重复删除的主要质疑来自于对其费用的忧虑。很显然,通过与已存储的每一个数据块进行比较的方式来检验每一块要存储的数据,是既花费时间又耗费能源的一件事。厂商为了提高重复数据删除的处理速度花费了大量的时间和精力。在大多数基本的情况下,它们一般采用散列准则来确定每一个唯一的数据块,但很多厂商也使用更精确的算法。因此,使用数据重复删除的备份和归档系统的数据吞吐量一直在节节攀升。Diligent Technologies公司日前宣称,使用其最新版本的基于磁盘备份ProtecTier产品的一个客户,达到了400MBps的吞吐量。

  CAS是一个比重复数据删除更宽泛的概念。按目前的使用情况,它是指通过基于内容本身的独一无二的标识符来寻址的系统,而不是基于存储的位置。

  当一个诸如文档的目标存储于CAS系统中,它的内容将被扫描辨别,并产生诸如散列值的一些标识符。这些标识符将用于取回我们所需要的目标文档。对于两个完全相同的目标,比方说同一份文档的重复备份,将会产生同样的标识符,只有一个拷贝会被存储起来。这就是这两个名词最主要令人混淆的地方。在节省存储空间方面,单一实例不如块级的重复数据删除有效。当很多人谈论数据重复删除时,他们所指的是块级重复数据删除。

  CAS最具吸引力的环节之一是因为每一个目标的标识符都是基于其内容的,它很容易确认取检索的目标自保存后没有被更改。这使得CAS在与法规遵从相关的存储具有吸引力。

  当然,这也意味着在CAS系统中,目标的任何改变都会导致一个全新的目标被独立存储起来。这就是为什么CAS适于那些一旦被保存就不会改变的数据资料。另外一个原因就是开销。将一个目标存储在CAS系统中比存储在传统的文件系统中需要更多的时间和更多的机算能源。检索受到的影响则小得多。

  即便与重复数据删除相比,CAS仍是目前很热门的一项备份及归档技术。CAS系统的厂商至少一打以上,包括像EMC和惠普这样的大公司,也有诸如PermaBit这样的小公司,它提供Dynamic Information Services产品。

  此外,在实现途径、架构、容量、吞吐量和价格方面,CAS系统千差万别,甚至多于重复数据删除。那些正在考虑购买CAS系统的存储管理员们必须认真考虑他们的需要,并认真研究备选产品,以便为他们的企业找到最匹配的方案。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

翻译

陈晶
陈晶

相关推荐