主存储上的重复数据删除技术和数据压缩可以减少数据占位

日期: 2010-05-09 作者:Carol Sliwa翻译:张强 来源:TechTarget中国 英文

虽然说在主存储上进行重复数据删除技术以及数据压缩技术的应用还不及在备份应用上的广泛,然而我们还有很大的理由和期望在主存储上实现在比如对word文档,excel表格或者ppt幻灯片等非结构化数据上实现空间压缩的显著成效。   美国Gartner咨询顾问公司的研究副总裁Dave Russell,开展了一场关于当前在主存储设备上进行重复数据删除技术的讨论对话,话题从标准的压缩技术到文件级或者子文件级别的重复数据删除技术,再到重复数据删除技术和数据压缩技术的整合上。他同样也表达了关于他对未来用户可能感兴趣的相关新兴技术的认识和看法。   SearchStorage.com: 在关于主存储实施重复数据删……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

虽然说在主存储上进行重复数据删除技术以及数据压缩技术的应用还不及在备份应用上的广泛,然而我们还有很大的理由和期望在主存储上实现在比如对word文档,excel表格或者ppt幻灯片等非结构化数据上实现空间压缩的显著成效。

  美国Gartner咨询顾问公司的研究副总裁Dave Russell,开展了一场关于当前在主存储设备上进行重复数据删除技术的讨论对话,话题从标准的压缩技术到文件级或者子文件级别的重复数据删除技术,再到重复数据删除技术和数据压缩技术的整合上。他同样也表达了关于他对未来用户可能感兴趣的相关新兴技术的认识和看法。

  SearchStorage.com: 在关于主存储实施重复数据删除技术以及数据压缩技术上,最常见的一些途径有哪些?

  Russell: 关于这方面的途径主要有如下的四个方面。首先的一个是标准压缩技术,典型的说比如lempel-ziv压缩技术,是根据在70年代晚期的1977,1978年的lempel-ziv算法得来的。其次的一个途径是通常被称为单实例存储(single-instance store)或者它的缩写SIS,再或者有时也被称为文件级别的重复数据删除技术,这种技术的特点是通过尝试对两个整体文件进行比对来判断是否具有一致性,比如对两个完全一样的PDF文档进行比对来达到消重的目的。第三个方面的尝试是子文件重复数据技术,这种重复数据技术也是大多数用户所熟知的一种消重技术,其原理是通过试图比对文件之间或者数据库之间再或者邮件系统之间数据比特之间的共同性来达到重复数据删除的目的。第四种也是最后一种也是最常见也应用最广泛的一种重复数据删除和压缩技术,和前三种方式不同的是,它会去寻找文件内部的比特或者文件的碎片之间的共同性实现消重的目的后,再进行数据压缩操作。

  SearchStorage.com: 您可以简要介绍和对比一下分别几种不同途径的工作方式吗?

  Russell: 数据压缩技术特别关注的是数据的总量。每天都会遇到的一个例子就是一个声音文件,一个MP3格式的文件。数据压缩技术仅关注于一个一个的单个对象本身,在这个例子里,仅仅对一个单独的声音文件,需要值得指出的是,在对这个文件进行操作的时候,它不会持续着对其它类型的文件进行数据压缩操作,而是等之后再操作。

  下一个步骤就是单实例存储,这个步骤的过程会逐个扫描文件,结果像是先会放到一个字典里,然后继续扫描,看是否会找到和之前扫描结果中有一致性的文件。重复数据删除技术很好的发展了这个理念,并更好的将它阐述为继续通过对比文件中已知的数据比特或者查看数据库再或者数据的颗粒度等方面来判断和之间扫描过的文件是否存在一致性。这样看来,数据压缩技术往往是基于单个文件存在的,单实例存储首先会花费一点时间对比不同的文件,然后对比之前扫描过的不同对象或者文件中的比特信息来实现重复数据删除操作。

  SearchStorage.com:在主存储设备上应用重复数据删除技术以及数据压缩技术和在数据备份应用上使用这样的技术分别有怎样的效果?

  Russell: 可以确定的说,备份操作是我们从事的所有工作中最冗余的工作之一,意思就是说备份的时候往往会经常对相同的文件进行重复的备份操作。对于一些机构或者组织来说,他们可能需要每晚都做一次系统数据全备份,并且如果他们不这样做,他们就会选择每周做一次全备份,根据关于数据改变率方面的经验,备份的数据中大约会有90%到95%的部分在之前的备份中已经可能存在了。

  那么,既然在备份的时候已经做好了重复数据删除操作,这样在主存储设备上再进行重复数据删除操作的几率会相对稍小一些,然而非常典型的是,像一些所谓的非结构数据或者像word文件,excel表格再或者ppt幻灯片这样的文件,不仅看起来不仅有许多的一致性或者重复性,而且在很多情况下,都会发生文件有一点改动就会被重新再保存一次,这样实际上就会造成多个数据重复拷贝。另外还有一个关于数据库的例子,通常来说可能一个企业或者组织关于他们数据库的备份会达到至少六份甚至多至十份。这样看来,在主存储设备上应用重复数据删除技术仍有它的市场空间存在。

  SearchStorage.com: 您会预料到在主存储的重复数据删除以及数据压缩领域会有哪些新兴的途径吗,如果有,它们将如何发挥作用并且对于用户来说,他们对这些新途径可以有怎样的期盼?

  Russell: 我认为首先在市场上相对近些可能出现的情况是,有证据表明,供应商们会开始将他们产品的各种功能打包。但我们认为,我们将会看到的更多的情况是一些关于数据压缩和重复数据删除产品打包或者整体解决方案的例子。今天的情况是,一家供应商可能仅会单纯的提供重复数据删除技术的功能服务,在不远的未来,他们可能会在提供重复数据删除功能服务之前会先提供数据压缩服务;同样今天单纯提供数据压缩服务的供应商明天也可能将功能扩展到重复数据删除领域。

  随着技术的复杂,在进行运算处理的过程中尤其是CPU方面,将会产生更多的功耗,下一步我们将看到的是在芯片技术上的更多改进使得功耗方面的成本能有所降低。未来许多产品的趋势可能发展为随着CPU运算速度能够足够快到可以处理足够多的数据,这样原本首先将数据存放在主存储的过程将会改变为先在CPU计算中进行重复数据删除和压缩后再存放在主存储设备上。

  第三方面的途径也是一个广泛的视角,意思就是说重复数据删除技术如何在全局展开,或者说我们能在多宽泛的一个区域内进行对那些重复过的数据进行同一性的比对再将重复的拷贝删除。当今许多产品的覆盖程度都受到数据所在逻辑单元号(LUN)或者卷(Volume)的限制。而其它的一些产品也由于特定数据流的限制而不能全局的应用重复数据删除技术。针对上面的几个例子,未来我们在主存储设备上将看到逐渐更为广泛,更有全局能力的重复数据技术应用。

作者

Carol Sliwa
Carol Sliwa

资深编辑、作者

相关推荐

  • 理想混合云:企业混合云投资的标准

    混合云将在2017至2018年期间真正成为生产应用程序及关联的主存储。留意新的方法和产品,包括本文中描述的增强功能,特别是支持云的软件定义存储。

  • 在混合云中运行主存储工作负载面临哪些障碍?

    混合云存储的可扩展性,灵活性和成本优势,让混合云存储成为长期以来IT专业人士们的首选。然而直到最近,企业选用混合云仍面临重重障碍,尤其是在主存储方面。

  • 技术分析:云化的主存储功能是否已就绪?

    云技术的成熟使得它日益成为各种备份、灾难恢复和归档服务存放二级和三级数据的首选目标。像云存储网关和软件定义存储这样的技术将使数据中心变得更高效。

  • 存储经理人2017年5月刊:如何定义全闪存数据中心

    《存储经理人》2017年5月刊重点关注存储技术的发展,全闪存阵列的成功让许多厂商推出全闪存数据中心,我们将探讨影响闪存存储采购决策的因素,以及当今数据中心内闪存存储的应用场景。还将分享突破性存储架构——IRIS,探索云与主存储的关系,以及如何在“不间断”的世界中建立IT弹性计划等等。