紧跟去重的脚步:数据删除和压缩算法

日期: 2009-11-15 作者:Jerome M. Wendt翻译:曹同举 来源:TechTarget中国 英文

数据删除和压缩算法 备份软件和硬盘库都是采用将重复数据删除和数据压缩相结合的方式来进行重复数据删除。首先把所有的文件或者大的数据块在文件级别上进行比较,或者是通过哈希算法(MD5或者SHA-1)进行比较,以确定文件是否相同。不同的文件或者数据块将被保留,相同的则可以选择再次检查。第二次检查一般是在位级别上进行或者是再次通过哈希算法来进行验证,以确保这是重复的数据还不是哈希冲突。

这一步一般可以使重复数据删除比率达到10倍以上。 如果要重复数据删除比率达到20倍或者更高,需要对重复删除后的数据进行压缩。厂家通常会使用无损数据压缩算法,例如,哈夫曼编码以及蓝波- 立夫- 卫曲编码算法,来对不同的数据……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

数据删除和压缩算法

备份软件和硬盘库都是采用将重复数据删除和数据压缩相结合的方式来进行重复数据删除。首先把所有的文件或者大的数据块在文件级别上进行比较,或者是通过哈希算法(MD5或者SHA-1)进行比较,以确定文件是否相同。不同的文件或者数据块将被保留,相同的则可以选择再次检查。第二次检查一般是在位级别上进行或者是再次通过哈希算法来进行验证,以确保这是重复的数据还不是哈希冲突。这一步一般可以使重复数据删除比率达到10倍以上。

如果要重复数据删除比率达到20倍或者更高,需要对重复删除后的数据进行压缩。厂家通常会使用无损数据压缩算法,例如,哈夫曼编码以及蓝波- 立夫- 卫曲编码算法,来对不同的数据或者重复删除后的数据进行压缩。通过压缩可以把一些无用的数据例如前置零和空格删除掉,这样就实现了文件的最小化。

无论在源设备上还是目标设备上进行重复数据删除都有可能出现性能或者管理方面的问题。在重复数据删除的初始阶段,备份软件会对主机的性能造成很大的影响。用户需要仔细确认内存的使用情况。如果同时运行2个备份软件,服务器和应用程序的性能和稳定性都需要关注。

如果将重复数据删除部署在单个磁盘库上,在磁盘库读写数据高峰时间可能会出现性能问题,所以在此建议用户将重复数据删除部署在多个磁盘库上。但这时就会出现管理方面的问题,因为管理员需要维护多个磁盘库,而此前只有一个。在部署之前用户一定要考虑到这些潜在的问题。

解决瓶颈问题

Asigra公司的Televaulting产品尝试通过提供非代理的方式来解决瓶颈问题。这种方式可以快速安装而且基本不需要人工干预。首先将Televaulting 网关软件安装在linux或者windows的服务器上。然后Televaulting备份软件在局域网内通过CIFS、NFS、SSH(更安全但速度低)协议来读取客户端的数据。在读取文件时,软件会使用哈希算法对每一个文件进行比较,不同的数据被保存下来,相同的数据在加入索引之后就会被删除掉。

所有数据比较的工作都在Televaulting的服务器端完成,它管理着每个服务器上不同的数据块。当初始阶段的备份和索引工作完成之后,后面的备份工作会快很多,因为这时可以充分利用前面生成的数据块。

这种方法并不能完全解决由重复数据删除造成的性能问题。由于重复数据删除任务是在中央服务器上运行,这时性能问题就从客户端服务器转移到了这台中央服务器上。当许多机器的数据增长的非常快(超过10%)或者有大量的服务器(超过100台)需要同时运行备份任务时,备份的时间可能会受到影响。这时可能需要部署多台Televaulting服务器才可以解决问题。

EMC公司的Avamar和赛门铁克公司的Veritas NetBackup PureDisk采用了基本相同的方法来解决性能问题。他们都是采用代理的方式在每个客户端服务器上对文件进行检查。中央服务器存储着不同文件的哈希表数据库,所有的代理客户端都跟这台服务器进行通信。Avamar 和PureDisk的代理客户端是通过跟中央服务器内的数据进行对比,来确定数据是否重复。如果这个文件记录存在,代理就会忽略这个文件。如果这个文件没有记录,就会被分割成许多小数据段,然后再进行比较,将不相同的小数据段存储起来。从这点来看,EMC Avamar 和PureDisk背离了原来设计的初衷。

EMC Avamar最大支持1.5TB的存储的空间,Symantec公司的 Veritas NetBackup PureDisk是4TB。但EMCAvamar的数据段只有PureDisk软件的四分之一。EMC产品管理副总裁Jed Yueh称,这种方式更加有助于识别重复数据。EMC Avamar采用冗余节点阵列(RAIN)集群的方式来增加容量和扩展规模。这样用户可以根据自己的需求自由的增加节点,以达到提高性能和增加容量的目的。

据赛门铁克公司介绍,采用PureDIsk软件,一个服务器可以管理4TB的存储空间,100百万个文件,几乎等于80TB源文件。不仅如此,PureDisk还可以增加更多的服务器客户端来处理更多的文件。

PureDisk采用Metabase服务器和Metabase引擎的方式来管理文件的元数据,并且元数据独立于文件系统之外。MetaBase服务器控制着所有的MetaBase引擎之间的通信。如果环境增长,存储管理员只需要向PureDisk添加新的MetaBase引擎实例即可,这样大大简化了重复数据删除的过程。将元数据从文件系统中分离,提高了存储系统搜索和维护时的性能,增加了可以处理的文件数量,而且只需要保留一个单独的重复数据删除实例,大大简化了管理工作。

早期的采用者

使用EMC Avamar 和赛门铁克公司的Veritas NetBackup Pure-Disk的用户在安装备份软件代理时或者服务器的性能受到影响时可能会收到一些报错信息。但用户对以下两种情况应该特别注意:初始的数据比较阶段和代理服务器的寿命过久。

Jim Rose, Office of Technology系统管理部经理,在各地的分公司都安装了PureDisk软件以平衡某些应用的负载。他在80个办公室的windows server上安装了PureDisk,并且为每个机器安装了PureDisk代理来进行数据备份。Rose发现备份的初始化阶段会花费24小时到36小时不等的时间,而第二轮却仅需要花费一半的时间就可以。到第二天或者第三天,备份工作基本上全部完成。

Rose表示:赛门铁克公司的PureDisk在对新的服务器数据进行备份时,不会对其性能造成影响,但如果服务器已经使用了三年以上,初期的数据扫描阶段会花费更多的时间。

Michael Fair,某健康服务中心网络管理员,认为跟Ca Brightstor以及赛门铁克公司的BackupExec相比较,EMC Avamar的性能和管理方面的问题根本不值得一提。“我减少了8个地方的域控制器,而且现在随时可以进行数据备份,不必担心应用程序会受到影响。”

采用了PureDisk之后,Rose在六个小时内就可以完成80个地方300台机器的数据备份任务。而且这些数据的恢复工作也比以前简单的多。作为一名既负责远程办公室又要负责本地企业数据中心的管理员,Rose当然也知道重复数据删除的不足。考虑到初始阶段要花费24到36小时,中心数据库变动频繁等一系列因素,Rose并没有在企业数据中心使用PureDisk,而是采用了将主机和磁带库分离的方式。

请继续阅读:磁盘库在线去重

回顾上一部分:如何估算重复数据删除的比率

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。