数据存档(archive)概述

日期: 2007-12-13 作者:Stephen J. Bigelow 来源:TechTarget中国 英文

在正常的情况下,备份(backup)是对数据的一份拷贝,并且为了防止数据丢失而将该拷贝保留起来——当由于用户的错误导致文件丢失或者由于系统问题导致数据损坏时,被影响的数据就可以从备份中得到恢复。存档(archive)和备份是不同的,因为数据可能几个月甚至几年都不会被使用,但是当我们需要的时候应该可以非常快的访问这些存档的数据。后来,由于数据存档的大小变得越来越大,每年以90%甚至更高的比率增长,数据存档变得更加复杂。在一个磁带或者光纤介质的卷中去搜索一个很重要的文件是非常耗时间的。

传统的备份平台是不适合数据存档存储的,所以用户需要依靠磁盘存储系统来达到性能和可靠性的一种……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

在正常的情况下,备份(backup)是对数据的一份拷贝,并且为了防止数据丢失而将该拷贝保留起来——当由于用户的错误导致文件丢失或者由于系统问题导致数据损坏时,被影响的数据就可以从备份中得到恢复。存档(archive)和备份是不同的,因为数据可能几个月甚至几年都不会被使用,但是当我们需要的时候应该可以非常快的访问这些存档的数据。后来,由于数据存档的大小变得越来越大,每年以90%甚至更高的比率增长,数据存档变得更加复杂。在一个磁带或者光纤介质的卷中去搜索一个很重要的文件是非常耗时间的。传统的备份平台是不适合数据存档存储的,所以用户需要依靠磁盘存储系统来达到性能和可靠性的一种折衷。文件可以被存档到任意的磁盘存储系统中,但是最近出现的基于内容的存储(CAS)技术已经开始支持存档了。

  了解基于内容的存储(CAS)技术

  在最简单的级别上,CAS是一个特别的磁盘存储系统。因为存档数据是不会被经常访问的,所以高性能的磁盘并不是必需的。事实上,大部分的CAS平台都由于每GB低廉的价格采用了普通的SATA硬盘;当然,由于需要支持更多同时使用平台的用户,对性能的需求导致一些CAS平台也采用SAS硬盘。但是,CAS技术包含了独特的特点,该特点可以优化存储空间并且可以提高长期的数据管理。

  CAS技术扩充了使用元数据(metadata)来定义一个文件。当文件包含了日期、时间、文件名称或者创建者的元数据时,CAS允许将这些信息和文件一起存放起来。这些扩展的元数据将来对于索引以及搜索旧的数据非常有用。比如,一个内科医生可以使用元数据来搜索所有病人的文件并且通过一个特殊的物理条件来得到病人的X光数据。元数据以及索引/搜索的特点对于满足网络发现或者其它诉讼请求来说是非常重要的。而加密技术有时则用来保证数据的安全性。

  CAS的另一个特性就是一旦文件被存档,就不能再被改变。这一点保证了数据的完整性并且不被篡改和取代。一个公司的审核或者诉讼过程可以信心十足,因为被检查的数据是最原始的并且未被改变。防止被篡改这项功能实际上就是通过把文件看作唯一的指定和唯一的位置来实现的。因为大多数的存档数据的生命周期都是有限的,因此CAS也同时管理着数据的保持力,这种保持力是和调整以及维持的需求同步的。

  传统文件拷贝的一个潜在的问题就是对文件不可避免的复制。如果有100份邮件附件的不同拷贝,那么100份拷贝都会被备份。对于长期的存档存储来说,这种缺少效率的处理办法很快就会把磁盘空间耗光。而CAS技术的另一个长处就是防止数据重复的功能(就是常说的单一存储或者也叫做智能压缩技术),这样可以减少重复的数据。只有一份数据得到备份,而其它的对这份数据的复制都通过一个简单的关联到那份备份数据上。考虑一个文件级别的例子,如果一个有100份同样的2MB文件的附件,CAS会仅仅存储2MB来保存所有的100份关联,而不是在磁盘系统上用200MB保存该文件。专家们提到,防止数据重复的功能可以减少对数据需求的1/50。而传统的压缩技术则可能进一步减少磁盘空间的使用。

  功耗同样是一个很重要的考虑。当CAS系统的规模增加到成百上千的磁盘后,功耗的问题就会凸显。一些存档系统采用了很多办法来降低对电的消耗,比如让驱动器处于idle状态或者让idle状态的驱动器完全停下来。低功耗的驱动器以及新涌现的驱动器技术,比如“混合型硬盘驱动器”(Flahs和硬盘)都可以从整体上降低功耗。

  CAS产品

  CAS市场主要的厂商包括——注意这里没有顺序之分——EMC公司、Nexsan技术公司、Sun微系统公司、StorageTek公司、Permabit公司、HP公司、Bycast公司、IBM以及Avamar技术公司。大多数的CAS厂商都对CAS有着相似的观点,尽管每一个厂商都将独一无二的特色增加到它们的产品上。

  对于大多数的产品,最主要的特点就是减少数据重复的功能。通过将重复信息删除,可以减少对存档空间的需求。EMC的Avamar产品就以这一点而著称;它将文件拆成小块,Avamar称这些小块为“原子”。当一个文件发生变化时,或者一个新的文件被存档了,那么只有新的/改变的块被存入到磁盘中。减少了对存储的需求同样加速了备份过程,因为只有更少的数据需要被传输。

  一旦数据被发送到CAS,这些数据就不能被改变了,这样可以防止这些数据被盗取,因此其他的一些CAS产品强调存档数据的稳定性和安全性。Nexsan的Assureon产品使用AES 256位的加密算法来保护文件存档。Assureon同样增加了串行化功能(Serialization)来跟踪当前CAS的位置以防文件被篡改。串行化的位置可以被周期性的检查来验证每一个文件的完整性,并且任意被损坏或者不再完整的文件都可以得到有效的处理。

  当然,其它的CAS平台也拥有搜索和扩展功能。搜索的能力依赖于成熟的元数据,当用户忘记了何时创建了文件,它可以帮助用户找到相应文件内容。扩展性则对于长期的处理存档增长以及处理大量的CAS对象非常重要。EMC以及Sun的产品则都包含了这方面的功能。

  CAS的应用

  CAS产品的适用范围很广泛,除了在存档存储中被广泛使用外,在备份/重建、改善存储性能、满足调整需求以及节省成本等方面都被广泛应用。

  CAS平台防止数据重复的功能有时可以减少对存储容量本身的需求。如果公司的数据可以被简化为非常小的片断时,备份和重建(比如,备份到磁带或者光纤介质)的工作就会更快的完成——因为需要传输的数据量很小。更少的数据卷通过广域网(WAN)连接到远程站点上可以加速备份和复制的任务。丢失的或者被损坏的文件可以直接从磁盘上重建,而不需要花费时间和精力来在这些介质上寻找该文件。

  有时候不选择其它长期的存储方法而选择CAS是为了提供更好的用户体验效果。比如,检查磁带、磁盘上的图像或者X光数据有时候需要手动来做,当相应的存储介质加载的时候。对于最终用户,也许会花几个小时(甚至更长的时间)来从介质上获取数据。一个基于磁盘的CAS系统可以保持数据并且不用用户手动操作就可以根据需求提供所需文件。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

相关推荐