Ocarina ECOsystem在主存储的数据压缩和消重前先分解文件结构

日期: 2010-01-06 作者:Carol Sliwa翻译:Michael Zhang 来源:TechTarget中国 英文

Ocarina网络发表声明说,他们的以主存储设备为设计目标的ECOsystem设备在对微软office系列文档、pdf文档以及虚拟机文件进行重复数据删除时可以达到最多85%的消重率,在对图片文件消重时也能达到40%以致更高。 但是,竞争对手认为,这样的高消重率换来的代价是对性能方面的影响,而这些是用户们不愿意见到的。 Ocarina公司说,对性能影响的评估是一个复杂的过程,在一定程度上需要看客户是如何使用产品的。Ocarina公司的市场高级总监Mike Davis说,他们的产品进行的是post-process的数据压缩和重复数据删除,这样就转移和降低了文件服务器上的cpu负载。

Davis提到……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

Ocarina网络发表声明说,他们的以主存储设备为设计目标的ECOsystem设备在对微软office系列文档、pdf文档以及虚拟机文件进行重复数据删除时可以达到最多85%的消重率,在对图片文件消重时也能达到40%以致更高。

但是,竞争对手认为,这样的高消重率换来的代价是对性能方面的影响,而这些是用户们不愿意见到的。

Ocarina公司说,对性能影响的评估是一个复杂的过程,在一定程度上需要看客户是如何使用产品的。Ocarina公司的市场高级总监Mike Davis说,他们的产品进行的是post-process的数据压缩和重复数据删除,这样就转移和降低了文件服务器上的cpu负载。

Davis提到,“主要的去考虑到的影响来自于对文件解压产生的边际延时,而不是CPU的负载,虽然这些数据应用上的延时可以达到毫秒级别,但不管是用户本身还是前段的web服务,通常都是难以觉察到的。”

ECOsystem里面ECO是extract,correlate以及optimize三个词的第一个字母,分别代表提取、相互依赖以及使最优化。从原理上说,第一步软件先判别出文件的类型,然后将他们提取出来或者解压缩,之后文件将用“0”和“1”为代表,以最全面的方式将文件表示出来。对于一个复杂的文件来说,比如说是一个内嵌了图片的pdf文档,这就需要多层次的递归解压缩。

“事实上是,我们产品上使用的文件提取方式与别的任何一家的产品采用的方式都是不同的。”Carter George,Ocarina的产品副总这样说道。他表示,通常重复数据删除技术都是比较复杂的,因为现实中许多文件的类型也被压缩过了。但在我们的产品上会先进行解压缩,这样就避免了问题的存在。

在拆分这些文件的时候,ECOsystem会尝试去识别原始对象范围,像文本的一段,一张图片或者一张照片。比如说,他们可能会对整张照片产生一个独立的hash值,而不是对基于数据块的以4kb为大小的重复数据删除chunck进行hash值的计算。

在关联阶段(或者重复数据删除)阶段,系统会将重复的数据删除,并将指针指向那个匹配的对象。

“通过将这些对象作为原始对象保存在一起,我们进入的数据压缩的阶段,并且虽然我们已经完成了重复数据删除,但我们一样可以继续通过对那些原始对象采用压缩处理器压缩来节约出更多的空间。”

作为最优化的一步骤,ECOsystem提供了大约125个处理器。其中一些标准的压缩处理器基于一些先驱们,比如Abraham Lempel以及Jacob Ziv,他们的设计完成的。另外的一些是Ocarina自己的研发团队的数学家们基于一些特定的文件类型,比如说多层密度界面的或者基因组数据完成的。这些设计的压缩处理器也有他们自己的所有权。

George说,“如果你越多的知道的文件中显现的pattern,你越可以设计更专业化的压缩处理器。如果你知道数据类的全部,那么你可以将拥有0-10%的重复数据删除效率,但如果你可以有一个好的数据压缩器,那你可以将消重率提高到50%到80%。”

George还表示,对于那些追求性能的用户他们来说,可能更愿意选择区将重复数据删除功能打开而关闭了压缩功能。这样的选择方式对VMware的VMDK文件的重复数据删除很管用,也会在其他的一些主存储存放数据的实施上受用。

然后,George估计80%的online或者near-line存储并不是特别的繁忙,所以客户也许更愿意选择使用更快的基因组压缩技术。对那些用于归档的存储设备来说还有第三种选择,因为他们相对不常用,所以可以试用基于数据的压缩处理器。系统会扫描每个对象以及每种数据类型,然后分别对他们选择最合适的数据压缩器。

“我们提供了非常多的选择,客户可以自由选择他们需要的。”George说道。他建议客户开始考虑应用的策略,比如说仅仅对超过10天或者30天没被改变过的数据进行重复数据删除处理,这样可以将性能上的影响降到最低。

与他们许多主存储提供的类似,Ocarina公司的产品是基于post-process的,先将文件存到磁盘上,然后再进行重复数据删除操作。但与他们公司产品又不一样的,ECOsystem采用了一种George称作“sliding window”的变量块方式,来比较那些block上以0和1形势存放的文件然后决定哪些需要重复数据删除。

ECOsystem到目前为止仅能使用子啊网络附加存储(NAS)设备上,但是George说,一个合作伙伴也提出了基于数据库存储的请求。未来对产品的的规划包括有对NAS厂商的可嵌入式版本的设计,另外就是在直接附加存储(DAS)上的应用,会为Windows服务器开一个端口。

虽然George表示ECOsystem是完全为企业级主存储市场的量身定制的,但用户们并不是完全将他们仅用在这一方面。来自美国加利福尼亚州Zoic录音室的首席工程师Saker Klippsten说,他们公司将这项技术用在二级存储的资源二次利用上,比如电影剪辑。

Klippsten说,Zoic公司已经意识到Ocarina公司的ECOsystem可以为他们提供40%到65%的重复数据删除效率,他们没有计划将他们使用在主存储上。“在文件解压缩以及读取上花了时间,我们希望的是能实时的访问它们。”,他表示到。

作者

Carol Sliwa
Carol Sliwa

资深编辑、作者

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。