重复数据删除
重复删除技术是最近谈得比较多的热门技术。由于这个概念的产生,造成了大家对这三个概念的混淆,我们首先通过重复删除技术本身的特点分析,分清相互的区别。
重复数据删除技术其实就是为删除或擦去冗余文件、字节或数据块的流程,确保只有“独有”的数据存储在磁盘上。也就是所谓的容量优化保护技术。重复数据删除通过有效减少后端存储设备中冗余容量占有,解决了“容量膨胀”的效率问题。首先,重复数据删除技术不同于普通的数据压缩技术是通过压缩算法消除文件内的冗余数据来缩减文件大小,而重复数据删除是通过算法消除分布在存储系统中的相同文件或者数据块。其次,重复数据删除技术关键是只保留唯一的数据实例,在减少数据存储量方面更加有效。重复数据删除技术的基本原理是将数据分块筛选,找出相同的数据块并以指向唯一实例的指针取代。
下图给出了形象的说明
在此图中,重复数据用多个相同颜色的方块来表示。主要目的是相同颜色方块有效减少。重复数据删除处理的对象可以是文件级,块级或者字节级,但是处理的对象粒度越小,系统越复杂,检测数据的消耗越大,但是冗余的程度是最小。根据实际的技术实现,采用块级的重复数据检测和删除,有效性最高。举个例子说明这种技术的应用,比方说有用户生成了10MB的图片资料文件,然后用附件方式电邮给公司内部10需要的人员,这样在传统的备份过程中,邮件会被完全备份,这样就会消耗10MB×10的磁盘空间,产生了10倍的冗余,而采用重复数据删除技术,可以很方便的将冗余的文件删除,所有其他附件(如重复的拷贝)都被“指针”替代。提高整个系统的存储效率,降低冗余成本。
重复数据删除技术可以有效减少备份容量需求,从而从多方面实现成本节约。由于备份数据的容量的释放,整个系统可以实现更长时间的数据保留,释放容量意味着可以用更少的存储管理完成更多的备份数据,可以减少用于备份的物理磁盘数量,释放的磁盘容量可以备份其他数据或者延长磁盘上已备份数据的保留期。重复数据删除技术让实际的物理数据量大幅降低,从实现的角度看,重复数据删除技术的产品主要区别于实施重复数据删除的地点和文件被分割的片段大小。看删除操作是否利用服务器本身来完成,或者文件片段的大小、压缩是块级的还是字节级的,这也是目前产品差异性比较集中的地方。
重复数据删除技术也不是没有弊端,其实在校验过程中,由于每次写入数据时,都要校验所有的数据块,避免重复,这样整个系统的备份延迟时间将会被拉长,数据量越大延迟就会越长。对于效率的影响也是显而易见的。但是重复数据删除技术还是加快了由磁带存储向磁盘存储迁移的步伐。由于大幅度地降低了用户需要备份的数据量,这就使得在备份和恢复应用中,磁盘介质在成本方面与磁带介质之间有了可比性。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
简单可靠的平面备份技术
在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。
-
专家答疑:重复数据删除在云中是如何工作的?
重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。
-
全闪数据中心的数据缩减攻略
全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。
-
存储采购并非易事
硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。