重复数据删除技术解密

一、什么是重复数据删除
备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。
就在几年前,D2D备份似乎还好得令人难以置信。受价格低廉的 ATA(以及稍后的SATA)硬盘的影响,很多人会选择用D2D取代虚拟磁带库或做备份到磁盘的工作,使备份速度变得更快,不必再担心在磁带驱动器和磁带库上产生的机械故障,并且使文件恢复变得更加轻松。
但是今天,我们的磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。问题是在我们的备份设备中有太多的重复数据。现在终于有了解决这个问题的办法,善于抓住机会赚钱的厂商们声称他们的新一代“删除重复数据”产品可以按20:1,甚至300:1的比例缩减我们需要存储的数据量。果真如此吗?让我们仔细看看。
重复数据删除技术支持在已有的磁盘设备上存储更多的备份数据。因此采用“重复数据删除”技术可以增加您保存备份数据的时间,减少数据中心的消耗,降低成本。如果您删除重复数据后再通过WAN发送,那么您就能够节省大量的带宽,并且可以取代磁带实现网上离线备份。重复数据删除技术唯一的缺点是备份速度变慢。
源起
当您的备份程序在网络中多次从同一目录下备份相同的文件,或者从多个地址处备份相同的文件时,重复的数据在临时区域进行备份。大部分网络上的重复数据量令人吃惊,这些数据从56个用户保存在他们本地目录下的假日聚会的PDF格式邀请函,到每个服务器的系统驱动器上3GB Windows文件,真是包罗万象,应有尽有。
解决临时区域内文件重复的方案是增量备份。尽管我们很喜欢这样做,尤其是喜欢选择Tivoli Storage Manager 采用的永久增量备份的方法,但当我们考虑到RAID灾难恢复时,我们想到的是重复数据删除,而不是增量备份。增量备份主要是避免重复。
重复数据删除最基本的形式是出现在CAS(内容寻址存储)设备中的单一实例存储(single-i tance store),例如,EMC的 Centera。当每个文件存储到CAS系统上时,CAS系统会为存储的文件内容生成一个散列(hash);如果系统中已经存在具有相同散列(hash)的文件,系统就会再创建一个表示副本的指针指向已存在的文件,而不是保存另一个副本。
微软Windows Storage Server的最新版本,Windows服务器的OEM NAS(网络附加存储)版本,采用了与删除重复文件略微不同的方法。当写入数据时,W 不识别重复文件,而是运行一个后台程序SIS (单一实例存储) Groveler,该程序通过部分文件散列函数(采用二进制比较法)识别重复文件,将重复文件移到公用存储区,原始位置上的文件用连接到公用存储区文件的链接代替。
尽管文件级SIS能够节省一些空间,但是如果我们不只消除重复文件而且还消除了文件内存储的重复数据,那事情可就变得让人有兴趣了。想想Outlook的 . T文件。
例如一个典型的Outlook用户可以拥有300-MB或更大的. T文件,文件上保存着他过去所有的电子邮件;每天他都会收到一个或更多新的邮件,就因为那天他的. T文件改变了,你的备份程序就把这个. T文件包括在增量备份里了,即使这个300MB的文件只有25 KB 的改变。
重复数据删除产品能够识别这个25 KB的新数据,并且剔除其余没有改变的旧的数据,只保存25 KB的新数据,从而节省大量磁盘空间。再进一步设想一下,550KB的附件在20个用户的 . T文件内,如果它们能够被消除,您就可以缩减大量的数据。
象下述这样的一组解决方案是Data Domain倡导的采用“重复数据删除”技术进行备份的目标。即这些采用“重复删除”技术的设备管理 VTL (虚拟磁带库) 或 NAS等备份设备,它们从这些备份应用设备(VTL或NAS设备等)中获取数据,透明地执行“重复删除”处理。

恒亿科技  发表于: 2009-12-01

我要回答

电子邮件地址不会被公开。 必填项已用*标注

敬请读者进行回答,本站保留删除与本问题无关和不雅内容的权力。

相关推荐