技术对比:重复数据删除技术、数据压缩技术和单一实例存储技术

日期: 2008-10-15 作者:蒋永祥 来源:TechTarget中国

  由于存储经理们急需降低备份数据量,重复数据删除(data de-duplicantion)技术从而成为近来十分热门的技术。但是大家对于重复数据删除技术的基本概念却知之甚少,经常把重复数据删除技术、压缩算法技术和单一实例存储技术混为一谈。

  在本篇文章中,我们将会从多方面探讨重复数据删除技术,并澄清以下问题:

  什么是重复数据删除技术?为什么该技术适合备份应用?
  重复数据删除技术的重大意义及其客户价值
  影响重复数据删除效率因素
  与传统数据压缩技术比较,有哪些不同之处?
  对比单一实例存储技术,它的优势又在哪里?

  什么是重复数据删除技术?

  按照ESG(Enterprise Strategy Group)的定义,重复数据删除技术是一个减少或消除冗余文件、字节或数据块的过程,从而确保只有“独一无二”的数据被存储到磁盘。重复数据删除技术又被业界称为容量优化保护技术(简称为COP技术)。COP技术被用来降低数据保护时对容量的需求。

  由于我们存储的数据具有很高的共性——用户之间、服务器之间甚至同一文件(如Office文档)的内容是通用的。重复数据删除技术按自然边界把数据拆分为非常细粒度的子块单元,用指针代替相同的子块单元,从而达到显著降低存储空间的目的。利用重复数据删除技术,1TB的备份数据可根据备份数据的共性,存储为300-700GB不等。

  重复数据删除技术的真正价值在于处理已存储过的数据,特别是以下情况:

  • 从不同的服务器备份相同的数据(公用操作系统文件、应用程序文件甚至电子邮件和附件)
  • 大部分内容为“静止”的“活跃”数据,例如数据库、文档、电子表格和演示文稿
  • 已备份过一次的数据

  最值得注意的是最后一种类别。由于备份操作具有高重复性的特征,日备份和周备份的数据大致相同,变化率至多只有5-10%。因此,可以利用数据重复删除技术进行高效的后续备份。特别是针对完全备份的应用场景,如果每天都做完全备份,在这种情形下,每月实现10:1到50:1的备份比率是完全可能的。

  重复数据删除技术的重大意义?

  重复数据删除技术的客户价值是多方面的,但是最显著的优点是解决了一直困扰备份恢复业界多年的“容量膨胀”问题,因为重复数据删除技术可以在后端大为减少备份数据量。

  见下图图示:该图中以相同颜色的块表示重复数据块。重复数据删除的效率取决于应用和数据类型,就像图示中具有相同颜色的块除保留一个外,其余的都会被过滤掉。

 

  重复数据删除的处理粒度越细,则重复数据删除的效率越高。一般的重复数据删除是在文件级实现的,虽然有减少备份数据的作用但其效率明显不如在字节级实现的重复数据删除技术。同样,在块级实现的重复数据删除比字节级实现的效率更高。

  我们通过以下的例子来说明处理粒度对重复数据删除技术而言的重要性:我们创建一个1MB的PPT演示文档,然后通过电子邮件将其发送给20位员工,在传统的备份环境中,由于没有重复数据删除技术,每天晚上执行全备份作业时,这20位员工所接收到的PPT演示文档将作为邮件附件备份,即使没有一位员工对收到的PPT演示文档做过任何修改,备份作业同样要保存20份相同的文档,占用相当大的存储空间(20x1MB)。即使在一家小型企业组织,同样的问题仍然会使浪费宝贵的磁盘空间、能耗和冷却系统。

  在上例中,如果采用文件级的重复数据删除技术,系统会只保留一份PPT演示文档,而其他19份相同的PPT演示文档附件将被指针代替。而指针的数据量比实际的文档要小得多,所以我们可以节省大量的磁盘空间,用来存储其他应用数据或者提高备份数据的保留周期。

  基于字节级和块级的重复数据删除技术作了进一步的优化,它将1MB的PPT演示文档看成是由很多的数据块或字节单元组合而成,与已经存储的数据块或字节单元进行比较,相同的组成单元被指针替换。

  除了处理粒度之外,影响重复数据删除比的因素还有数据类型、数据的变化率以及数据的保留时间等等,这些都会影响实际的重复数据删除效率。根据ESG实验室对几种不同的重复数据技术的测试结果来看,在不考虑处理粒度的情况下,基本上都能达到10倍或20倍的重复数据删除效率。

  备份的最终目的是恢复,以往备份管理员在制定备份策略时,通常采用每天增量备份方式结合阶段全备份方式,如每月或每周全备份。从恢复速度的角度出发,哪一种备份方式更有利呢?显然是全备份方式(full backup),那为什么90%以上的备份管理员还在使用增量备份呢?原因是由于一次全备份的数据量太大,无法满足日益苛刻的备份窗口要求,完全属于不得已而为之。现在是采用完全备份模式的时候了,由于完全备份模式的数据块重复率是所有备份模式中最高的,所以重复数据删除技术非常适合完全备份的场合,因为它能够显著降低每次完全备份的实际存储的数据块数量,从而使用户能在短暂的备份窗口期间完成关键作业的备份,在需要恢复时,又能较快地恢复出保留周期内任意一天的数据。

  在部署备份和恢复的普通磁盘时,经济因素限制了从磁带上卸载并转存到磁盘的数据量。使用数据重复删除技术,在相同的磁盘空间内,以前只能保存最近一周的数据,现在可以存储一个月或更长时间的数据,因此大大增强了恢复选项。

  这一优势使 IT 部门能够成本有效地在磁盘上保留数月的备份数据,适合从 250GB 到超过 10TB 的主数据集。其结果可以实现更快、更可靠的恢复,并能大幅度增加数据恢复点的数量。

  什么是单一实例存储技术?
  如果当存储的装置里面有很多的数据或文件,它是相同的内容而且是重复的时候,用户往往会浪费大量的磁盘空间,这对于用户来讲是很高的管理成本和使用成本,单一实例存储这个技术就会帮用户解决管理问题和大量的节省存储的空间。SIS被启用后,就会作为一个后台的服务运行,把内容重复的文件合并到一个共用的存储空间。重复的文件被该文件的链接替代,对于用户和应用程序来讲就像原始文件一样。SIS技术已经实施于大型企业环境,并极大的节约了重复文件占用的磁盘空间,从而最大限度地利用目前的存储资源。Single Instance Storage (SIS) 通过减少冗余数据释放更多的磁盘空间,识别相同的文件,仅仅在中心位置保存一个副本,并在SIS公共存储区域保存文件的指针而不是保存文件本身。

  数据重复删除技术如何打包?
  数据重复删除技术集成在昆腾的DXi系列设备中,在后台为现有备份流程提供支持。用户继续使用现有备份软件和策略,他们察觉不到重复删除的过程;存储的数据也因此增加了10到50倍。

  重复数据删除处理的数据种类越多,容量减少就越大。总体来看,文件级的重复数据删除虽然有效,但其检测的重复数据要少于块级或字节级的重复数据删除。同样,字节级重复数据删除在检测数据重复上比块级的重复数据删除通常更有效。

  下面例子是说明在粒度上的差别:某终端用户制作了1MB的PowerPoint演示文档,然后以邮件附件形式发给内部20个人审阅。在传统备份环境下(没有重复数据删除),虽然文件没有任何变化,但每个附件都会在每晚完全备份过程中被全部备份,耗费不必要的磁盘容量(20×1MB)。即使是小公司,考虑到磁盘物理容量、功率和冷却等情况,此冗余成本也颇为可观。

  然而,文件级重复数据删除只保存一份PowerPoint文档备份,所有其他附件(如重复的拷贝)都被“指针”替代,从而释放磁盘空间容量,并在客户需要的情况下延长保留时长。

  更多粒度的重复删除方法—块级和字节级重复数据删除技术将此流程推进了一步。这些方法查看构成新1MB文件的每个片段,与重复数据删除系统先前遇到的元素相比较,在新文件中用指针替代重复元素,而不用重新存储。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。