重复数据删除之外的其他数据缩减技术

日期: 2010-05-16 作者:Pierre Dorion翻译:冬瓜头 来源:TechTarget中国 英文

持续不断的数据量增长,或被称为“信息爆炸”对于众多企业和专业存储结构来讲已经是司空见惯的名词了。多数人都同意这种观点,即新的业务应用程序被不断的开发、数据媒体服务以及社交网络工具的出现,更催生了大量的数据,使得数据增长速度雪上加霜,这些数据将会持续增加对存储系统的需求。所以,许多存储环境已经将它们关注的焦点转移到了如何在备份过程中缩减需要备份的数据上面了。第一个能够让你想到的数据缩减方案是数据压缩和重复数据删除技术,还有其他的数据缩减技术,诸如单一实例存储(Single-Instance storage,SIS)、数据归档以及数据重构/删除。

  早在上世纪70年代,为了解决日益增长的文本文件……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

持续不断的数据量增长,或被称为“信息爆炸”对于众多企业和专业存储结构来讲已经是司空见惯的名词了。多数人都同意这种观点,即新的业务应用程序被不断的开发、数据媒体服务以及社交网络工具的出现,更催生了大量的数据,使得数据增长速度雪上加霜,这些数据将会持续增加对存储系统的需求。所以,许多存储环境已经将它们关注的焦点转移到了如何在备份过程中缩减需要备份的数据上面了。第一个能够让你想到的数据缩减方案是数据压缩和重复数据删除技术,还有其他的数据缩减技术,诸如单一实例存储(Single-Instance storage,SIS)、数据归档以及数据重构/删除。

  早在上世纪70年代,为了解决日益增长的文本文件存储在硬盘中而空间占用过大的问题,数据压缩算法被开发了出来。数据压缩工具比如Lempel Ziv (LZW),代表了早期人们对数据缩减所做的努力。而到了20世纪初期,重复数据删除技术浮出水面并且在近几年内得到了广泛的普及。然而,取决于被操作的数据目标,这两种技术都在性能以及能力上有各自的局限

  比如,文本或者数据库对应的数据会得到不错的压缩比,但是图像和视频文件则非常难以被压缩,除非损失一定的分辨率和品质。重复数据删除的比率也会根据所操作的目标数据而有迥异的去重比率。比如,被加密的数据一般会得到很低的去重比率,因为加密会对数据产生随即效应。此外,重复数据删除依然没在主存储系统中得到太多应用,由于性能问题,它更加适合被使用在二级存储系统中,比如数据备份归档系统中。

  下一代数据压缩技术

  数据压缩技术已经取得了一些主要进展,诸如Ocarina Networks和Storwize Inc这样的公司已经找到了一种可以绕过系统主CPU而在主机和一级磁盘之间增加一个单独设备而进行数据压缩的方法。当被压缩的数据被从主存储移动到二级存储上比如备份或者归档介质之后,这里还可以使用重复数据删除引擎对它们再次进行Dedup操作,锦上添花。然而,这种技术毕竟是新出现的技术,而且目前仅支持NAS系统。将来可能会发布支持FC或者ISCSI的版本,而且还需要与当前的主流技术相兼容,比如FCoE。

  其他数据缩减选择

  不幸的是,除了重复数据删除和压缩之外,能用于数据缩减的技术非常有限,甚至可能根本不会降低数据的占用空间。所剩的另一种数据缩减技术是数据删除/重排(data deletion/disposition),当前它可以在技术角度上做到,但是却需要更多的人为因素介入,比如“策略”。在讨论数据重排之前,我们先来看另一个数据缩减技术。

  单一实例存储

  SIS是一种在特定的存储系统数据范围内查找完全一致的文件,找到之后将所有冗余的副本删除而只保留指针指向唯一被保留的那份文件的技术。这种技术的一个例子是Microsoft Exchange,如果有同一份附件被发送给了30个收件人,那么这份附件将只被保存一份,收件人的收件箱中所表现的只是一个指针。这对最终用户是透明的,就像30个收件人每人的收件箱内都有一份附件一样。这个例子中,数据缩减比率就是30:1。这种数据缩减方法在一个众多用户共享大量相同文件的存储环境中,非常有效。

  数据归档

 数据归档经常被高估为一种数据缩减方法。但是实际上,它只不过是在迁移数据而已。数据归档工具可以将很少被使用的或者将来不会再被使用的数据移动到另外的存储介质或者位置上,从而可以降低对主存储的日常数据管理复杂度。然而,虽然数据归档可以降低生产系统中的数据量,但是它并没有降低整个存储系统中的数据量。这是因为数据在从主系统被移动到磁带或者其他存储介质时,并没有执行任何数据缩减处理。但似乎,如果将数据归档与SIS、重复数据删除、压缩等技术相结合之后,那么此时才真正可以实现数据缩减。

  数据删除

  在重复数据删除、压缩以及SIS都不能够满足要求的环境下,那么数据删除就是唯一一个可供选择的方法了。然而,数据删除时所有存储从业者或者商业经理所最不愿意做的了。原因是因为业界有众多的法规来控制数据删除,比如freedom of information,e-discovery等,我们需要遵从法规。在删除数据之前,有一些需要看考虑的事项:

  针对在何种服务器上存储何种类型的数据,制定一个清晰的策略。文件服务器经常被用来存储用户数据,而且很多公司并不会花费时间和精力来看一看到底服务器硬盘上都存储着些什么。用户将一些音乐、照片或者电影文件放在服务器上的现象屡见不鲜。

  制定一个邮件保留策略,然后贯彻执行这个策略。实现这个策略的一种方式是部署一套邮件归档工具,比如Symantec的Enterprise Vault。Symantec的Enterprise Vault可以让你将邮件和消息进行归档,而且可以从归档的数据中进行查询,而且还可以设定一个保留时间,超过保留时间的归档数据可以被自动删掉。这套工具还可以支持一般文件系统以及Microsoft SharePoint对应的数据。同时,也有其他一些邮件归档工具,比如Informatica Corp公司的产品就是专门为那些后台使用数据库的应用程序(比如CRM和ERP)所设计的。

  要注意到PST(personal email archive files)文件,尤其是当要执行邮件删除策略时。很多用户发现,当邮件被自动归档或者删除之前,他们可以将邮件信息存储在PST文件中。这种行为会破坏数据缩减的比率,尤其是当用户将这些PST文件存储在对应的文件服务器中的时候。PST文件的存在也是对邮件删除策略的一种破坏,因为邮件原本应该已经被删除,而当前却仍在系统中保留了原邮件中的信息,而且还可以被访问。

  综上所述,可用于数据缩减的技术依然有限。在某些环境中,比如数据本身的格式决定了去重比率不高时,或者数据存储在不支持下一代压缩技术的设备(FC、ISCSI)上时,此时,直接将文件删除可能是实现数据缩减目标的唯一可行的办法了。删除文件并不是意见毫无意义的事情,但是你需要谨慎决定,同时遵循法规。删除文件同样需要一个清晰的策略以及需要鉴定的执行这些策略。施加和贯彻这个策略的本质,就像如果没有警察的强制管理,汽车时速限制就像一纸空文一样。

相关推荐