数据量正在迅速增加,企业用户不仅产生更多的原始数据,而且政府管理机构还要求他们在数据生命周期中多次备份和保留这些数据。如果每周的完整备份数据的保留期是1年,每天的递增备份数据的保留期是10天,那么,1TB数据在其整个生命周期中需要53TB的存储容量来提供数据保护。备份、管理和保存这些数据将大大增加劳动力成本。
但好消息是硬盘存储的费用在降低,重复数据删除技术则可应用在基于磁盘的虚拟磁带库(VTL)上,通过只备份和保存某段数据一次,从而帮助控制数据量的增长。
VTL是基于硬盘的系统,它模拟磁带技术使企业可以用最小的中断将它们安装在已有的环境中。重复数据删除软件(某些VTL提供)保存基线数据集合,然后检查随后的备份集合,寻找重复的数据。当找到重复数据时,它保存很小的数据表达式,这些数据表达式使软件可以根据需要汇编和恢复完整的文件。
目前有两种主要的重复数据删除方法:基于散列的方法和基于字节比较的方法。基于散列的方法利用一种算法对输入数据进行处理来创建很小的表达式和数据唯一的标识符(即所谓的散列值)。然后,将其与保存在查寻表中的散列值进行比较。但是,利用查寻表来确定重复的散列串会造成巨大的性能压力,并且可能需要几周时间才能取得最优的重复删除效率。
效率更高的方法是在对象级上进行比较。例如,将Word文档与另一个Word文档进行比较,要么采用模式匹配算法;要么采用效率更高的智能分析技术。智能分析在更详细地比较两个文件之前会分析备份文件和参考数据集合来确定可能是冗余的文件。由于把处理重点放在可能的重复数据上,它可以更彻底地去除重复数据和避免不必要的处理新文件。
一些技术在数据备份过程中进行重复数据删除。这种在线的重复数据删除会降低备份性能,增加备份的复杂性。另一些技术执行带外的重复数据删除,在执行时,它们首先备份数据,然后再执行重复数据删除。
字节级重复数据删除可提供高达25:1数据压缩率。当与典型的VTL特性,即压缩技术配合使用时,企业无须增加存储容量就可在同样的空间中多保存50倍的数据。这种压缩技术不仅使用户可以在线保存更多的数据,并使数据保持更长的在线时间,还带来了将数据保存在硬盘上的优势。例如,把数据保存在硬盘上比保存在磁带上占用更少的物理空间,并大大减少电源、冷却、安全和其他运营与基础设施费用。据最近的一份Gartner报告说,到2008年,50%的数据中心将缺少满足高密度设备需要的电源和冷却容量。
重复数据删除技术通过使备份到VTL的费用大大低于纯基于硬盘的数据保护解决方案,改进了数据保护的经济性。同时,它也是数据中心应对急剧增加的能源、劳动力和空间费用,以及管理即将出现的电源和冷却容量短缺的重要的途径。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Pure Storage推出ObjectEngine备份设备
闪存存储先驱Pure Storage公司开始进入云备份领域,让客户可对亚马逊云计算服务(AWS)上的数据进行重 […]
-
对象存储备份最大的好处是什么?
对象存储使得云备份更加实用,并且支持大规模的可扩展,因为对象存储主要是为了扩展而设计的,所以在低成本的商品硬件上存储对象存储通常是可以接受的。
-
揭开灾备真相——那些年我们见过的灾备术语
作为数据保护的最后一道屏障,灾备系统的重要性不言而喻。IT圈好像一夜之间都在说灾备,那么到底什么是灾备?为什么灾备如此重要?未来发展趋势如何?本系列文章带你认清灾备真相。
-
面向海量规模与高度扩展方向转化的二级数据存储
在闪存领域的投资,以及线上的二级数据存储架构帮助企业能够处理更多的数据,与此同时提高在闪存上的投资回报。