随着数据的急速增长,重复数据删除以其显著的功能优势在存储系统中获得了越来越广泛的应用。在初次全备份实现3~4:1的压缩比后,长期使用中可以获得约95%的惊人数据缩减,从而极大地减少了对备份系统存储资源的需求。
“指纹”算法保障数据完整性
重复数据删除技术的实现中,系统通过计算并检查数据块(或文件)的“指纹”,判断该数据块是否与已经存储的“元数据”重复。如果重复,则只需要保留指向该“元数据”的指针;如果“指纹”显示该数据块(或文件)是全新的,则保留该数据块,并作为“元数据”供以后使用。
因此,数据块(或文件)“指纹”的获得是重复数据删除技术的核心,在目前各主要厂商的实现中,“指纹”算法采用的基本都是密码处理中散列函数(hash)算法。良好的散列函数算法可以保证为不同的数据块产生不同的散列值,从而作为重复数据删除技术中的数据块(或文件)的“指纹”。然而,为了保证散列函数的抗碰撞(collision-resistance,即不同数据块的散列值相同)特性,散列函数算法需要引入大量密码学处理技巧,从而大大增加了数据块(或文件)“指纹”计算对系统处理资源的需求,因此也就导致了系统性能难以进一步提高。
散列函数作为重复数据删除技术的“指纹”算法是可行的,其对“备份数据完整性”的威胁仅仅存在于理论计算中,而不会对实际应用造成任何实际影响,主流重复数据删除方案提供商多年的实际应用也证实了这一点。
重复数据删除的硬件加速
在目前的重复数据删除系统中,“指纹”的运算都是由通用处理器以软件方式进行,复杂的散列函数处理使系统的处理能力只能达到每秒数十兆字节的处理能力,远低于一般存储系统每秒数百兆字节的处理性能需求,因而其应用也就被局限在对处理性能要求不高的离线或近线的备份应用。
事实上,在存储系统的发展中曾多次遇到类似情况:RAID控制器的奇偶校验处理和数据压缩最早都是通过纯软件方式实现。随着系统性能的提高,纯软件处理逐渐不能满足要求,居于领先地位的厂商便开始使用专门的硬件来加速相关处理,并最终成为高性能存储系统的标准配置。
同样的,在重复数据删除技术面临性能瓶颈的现在,曾首先为数据压缩提供硬件加速的Hifn同样率先推出了重复数据删除的硬件加速方案:通过使用专门芯片,重复数据删除处理中的“指纹”运算将完全由硬件实现,从而极大地减少对运算资源的占用,显著提高系统处理能力,以满足存储系统每秒数百兆字节和更高的性能需求。
高速重复数据删除技术的应用
就目前的应用前景而言,重复数据删除技术的应用主要为存储和通信两类产品。在存储产品中,重复数据删除将主要着眼于降低数据存储所需要的物理空间;在通信产品中,其应用主要为减少需要通过WAN连接传输的数据,提高异地数据存储和同步的效率。
在存储应用中,重复数据删除技术能够显著减少必需的存储空间,从而降低购买设备的成本、减少对机架空间的需求,节省能源和散热支出。通过在一定的存储空间中存储更多的数据,系统物理存储资源的管理和维护成本也将进一步降低。
在通信应用中,重复数据删除技术是通过低带宽连接传输大量数据的最佳技术,也是目前唯一的实用技术。重复数据删除技术的使用,将使各种远程数据应用成为可能,包括合并远程办公备份、灾难恢复归档的生成和维护等等。
如果能够解决性能上的瓶颈,凭借在数据缩减上的巨大优势,重复数据删除技术的应用将可以从离线或近线备份扩展到包括主存储在内的更广泛的领域中。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Red Hat新推Storage one捆绑硬件及SDS
Red Hat为其开源存储软件新增设备选项,本周该公司推出Storage One,这是与服务器硬件供应商共同设 […]
-
数据和云计算对CIO工作的影响
近日笔者在报道云计算对首席信息官(CIO)的影响时,总是会得出相同的观点:CIO的工作已经不再是曾经的技术工作 […]
-
简单可靠的平面备份技术
在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。
-
专家答疑:重复数据删除在云中是如何工作的?
重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。