近线存储杀手锏:重复数据删除

什么样的方法才是存储数据的最佳方法?就访问而言,最好的方法是存储所有的原始数据。可是,如果你想在磁盘上进行备份,这不是最好的方法。访问速度不能代表一切。数据量的大小也是需要考虑的因素。一般来说,数据量越小越好。磁盘比磁带贵得多,你肯定不想有大量的近线存储。
那么,怎样才能使需要备份的数据尽量少一些?传统的方法是压缩。你可以找出重复的字节串,然后用一个位置指针来替代这些字节串。你必须将这些数据置于存储设备中,这样就会产生块大小的问题。
同时还存在应用问题。Word只能处理文字,Excel只能处理电子数据表。E-mail只能处理有特殊结构和可能的附件的消息,网页也有他们自己的结构。一个简单的压缩运算法则针对的是重复的字节样式,相对来说比较短,压缩运算法则不会知道这些不同应用的特定结构。
EMC公司的Centera内容寻址存储(CAS) 平台是最先结合磁盘和基于内容的存档来保存审计追踪、保护数据被覆盖的设备之一。 每当文件被写到Centera设备上,就会为该文件生成独特的散列码(hash code)。 一旦文件写入,Centera软件就会防止删除及改动文件,除非存储政策另有规定。
Centera硬件价格比较贵,你需要应用软件来进行读写。Centera是特为固定内容(作为有源当前参考资料和有长期价值资料而保留不变的数字资产)的要求而设计的,不是通用于备份任何数据的产品。
Avamar的Axion备份和恢复系统在设计上非常类似于EMC的Centera, 它使用一个EMC称之为“ 内容寻址存储”的面向对象的存储软件架构。Avamar把数据看作对象(而不是文件和数据块) 来存储,配合一种叫做“公共因子分解”(common Factoring algorithm)技术将相同的对象只存储一次来减少总的数据。
Axion不仅可以利用压缩技术,还可以实现单一实例存储。Axion通过通用筛选算法来缩减数据。公共因子分解(common Factoring algorithm)听起来很复杂。举个简单的例子,比如将一组10MB的幻灯片备份到Avamar Axion系统上。在这里为了比较,我们没有进行压缩,将全部10MB备份到了Axion存储硬件上。现在,我们对其中一张幻灯片做了修改,然后要再次进行备份。Axion就只存储额外的378KB,压缩比率大约30:1,或者说重复数据删除比率为30:1更为合适,因为公共因子分解拒绝了所有重复了的信息,只允许备份改变过的信息。
我们再次改变幻灯片,结果还是一样的。只要原始幻灯片组还在,第一次备份之后,不管什么时候进行修改然后再次备份都不会是全备份,而是增量备份。
“Commonality Factoring System” (CFS)指的是定义并计算数据原子单元的系统,为数据标准化提供一套机制。Avamar已经设计出一套CFS用来支持大小固定的或可变的数据原子单元。通常,固定大小的数据原子单元用于应用,比如数据库。
Avamar的Axion产品最新版本是3.5。Avamar声称其Axion专用设备通过消除文件、数据库和对象中的冗余序列,将备份所需的存储空间最多减少98%。
“Killer App”(夺命应用)是投资圈里诞生的出来的形容某种创新的说法,指的是一种开创全新领域的新产品或者新服务,或许Avamar的Axion就是近线存储的一种“Killer App”(夺命应用)。

清石雨  发表于: 2009-12-15

我要回答

电子邮件地址不会被公开。 必填项已用*标注

敬请读者进行回答,本站保留删除与本问题无关和不雅内容的权力。

相关推荐