后期处理重复数据删除技术(我觉得称之为异步方式更合适)
当备份服务器开始向备份设备传输备份数据流时,会将整个备份数据量作为一个整体来传送。 然后启动单独的进程开始读取已写入磁盘的数据块,开始重复数据删除处理过程(该过程通常由另外一个设备执行,访问备份数据已写入的磁盘),如读入的数据块和已存储的数据块重复了,则用指针替代该数据块,如果没有重复,则将该新数据块留在磁盘上,而无需任何其他操作。
这种处理方式比联机处理方式显然需要更多的I/O操作。首先,后期处理方式要求进行所有备份数据块的写入操作。 然后,还需要对写入的所有数据块进行再读入操作,并与哈希表记录进行对比查找重复的数据块,这就需要额外的磁盘读操作。某些厂商的产品还要求进行再次的读操作来确认数据块在字节级别的重复。如果确认了重复的数据块,需要进行删除重复的数据块的写操作,另外还需要发起更新哈希表的写操作,该过程占用了整个处理过程95%的时间。余下5%的时间用来处理那些不匹配的数据块,同样需要对哈希表进行更新写操作。
下表总结了两种处理方式的技术特点:
*某厂商宣称他们可以将哈希表保留在RAM内,这样就无需执行磁盘读操作来检查哈希表了。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Red Hat新推Storage one捆绑硬件及SDS
Red Hat为其开源存储软件新增设备选项,本周该公司推出Storage One,这是与服务器硬件供应商共同设 […]
-
数据和云计算对CIO工作的影响
近日笔者在报道云计算对首席信息官(CIO)的影响时,总是会得出相同的观点:CIO的工作已经不再是曾经的技术工作 […]
-
冬瓜哥新作《大话存储后传》读后随感
今天要向大家隆重推荐一部有关存储的新作——冬瓜哥的《大话存储后传》,副标题是“次时代数据存储思维与技术”。
-
工作负载就绪 | 顶级计算密度、存储“性能怪兽”、最快的网络都准备好了,戴尔HPC还差什么?
大数据已成为HPC最重要的应用领域,戴尔PowerEdge FX2集刀片和多节点机架式服务器的技术优势于一身,不仅为用户化解计算密度、空间占用、网络布线的权衡之困,更令用户轻松获得顶级计算密度、存储性能,以及超快网络应用。