有些厂商事实上是在蒙骗用户。就此,我在我的个人博客上发表过一篇关于重复数据删除性能对比的文章。这篇文章主要对一些开放的信息做了汇总和解释。但是有些人的评论和回复却谴责我还是在替厂商说话。
为了让大家更清楚地认识重复数据删除产品,本文将告诉你需要对产品的哪些方面进行测试,并介绍我认为是最佳的测试方法。 目标端重复数据删除 vs. 源端重复数据删除 重复数据删除有两种类型,即目标端重复数据删除(target dedupe)和源端重复数据删除(source dedupe),它们的测试方法有很大的不同。目标端重复数据删除发生在存储设备内。通常,这些存储设备允许通过虚拟磁带接口、NFS、CIFS或其他合适……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
有些厂商事实上是在蒙骗用户。就此,我在我的个人博客上发表过一篇关于重复数据删除性能对比的文章。这篇文章主要对一些开放的信息做了汇总和解释。但是有些人的评论和回复却谴责我还是在替厂商说话。为了让大家更清楚地认识重复数据删除产品,本文将告诉你需要对产品的哪些方面进行测试,并介绍我认为是最佳的测试方法。
目标端重复数据删除 vs. 源端重复数据删除
重复数据删除有两种类型,即目标端重复数据删除(target dedupe)和源端重复数据删除(source dedupe),它们的测试方法有很大的不同。目标端重复数据删除发生在存储设备内。通常,这些存储设备允许通过虚拟磁带接口、NFS、CIFS或其他合适的API(如,赛门铁克公司Veritas NetBackup中的Open Storage接口)进行备份。在目标端重复数据删除的方法中,存储设备将接受全部的备份数据,而且备份数据传输到存储设备后立刻执行重复数据删除。目标端重复数据删除更节省磁盘空间,不过无法减轻备份客户端与服务器之间的网络负载。因此,目标端重复数据删除的方法更适合于网络带宽不受限制的备份环境,比如集中化的数据中心。
源端重复数据删除产品需要在备份客户端和备份服务器上安装自定义备份软件。在备份过程中,备份客户端能识别出从未见过的数据块,然后询问备份服务器是否见过该数据块。如果服务器已备份过相同的数据块,它会告诉客户端不再发送该数据块,从而减少网络负载。如果服务器从未备份该数据块(即该数据块是唯一的),客户端则会通过网络将它传送服务器。对于网络带宽是主要考虑因素的备份环境,如远程办公室,源端重复数据删除是最合适的方法。
目标端重复数据删除系统的测试
在考虑目标端重复数据删除方法时需要考虑到三个方面的因素:成本、容量和吞吐量。在计算重复数据删除系统的成本(其它系统也一样)时,要计算资本支出成本和运营成本两个部分。对于某个特定设备,要考虑到与其匹配的软硬件所需要的成本。有的重复数据删除厂商让资本支出的计算非常简单,而有的厂商则只提供一个连接到你自己的存储的网关。还有些厂商只提供软件,硬件的购买则取决于你自己。在这种情况下,要记住计算服务器硬件的成本,而且要确保服务器配置被该厂商支持。不管是只提供网关的定价模式还是只提供软件的模式,一定要计算到磁盘的成本(即使磁盘是免费的)。在重复数据删除领域,并不一定是使用已有磁盘才能节省成本。
最后,不要忘记另一个成本要素:“额外”磁盘空间的成本。这个额外的磁盘空间是为了快速恢复而将数据以原始格式保存,或者用于保留未去重数据的磁盘空间。所有这些磁盘到应该计算到系统的总体拥有成本中。
然后,你需要考虑运营成本。在评估每个厂商时,你要记录的是你需要如何维护他们的系统,他们的系统与你的备份软件将如何工作。二者之间有没有自定义接口(如Veritas NetBackup的OST API),或者你的系统会伪装为磁带库还是文件系统?这对运营成本会有哪些影响?
测试容量的方法有两种。第一种方法是发送大量备份数据到测试设备上,然后将发送的数据量和它在目标系统上占用的存储空间进行比较,从而看出重复数据删除率。用这个比率乘以用于存储去重数据的磁盘容量,就可以得出有效容量。第二种方法是不断地发送备份数据到设备中直到它被装满,然后记录发送到该设备数据量。尽管第二种方法需要的时间更长,但它是测试系统长期性能的唯一方法。(随着存储空间越来越满,有些系统的性能会有所下降。)
最后,在测试性能时你需要考虑如下几方面因素。
存储/写入 对于一个磁盘系统(无论是否有重复数据删除功能)首先要考虑的就是其储存(写入)备份数据的能力。尽管从技术上来讲恢复性能更为重要,但没有备份数据恢复就无从谈起。
恢复/复制/读取速度 磁盘系统的第二个衡量标准是其恢复、复制或读取备份数据的能力。我们开始使用D2D2T备份(磁盘到磁盘再到磁带)的原因是因为磁盘的读取/恢复速度快,如果它连恢复/读取速度快的特点都没有,D2D2T备份就失去了存在的意义了。记住,在你计划进行磁带复制的地方测试磁带复制。最后,不要指望恢复速度会非常好,记住测试单流(single-stream)和总体恢复性能。
重复数据删除 数据被传输到存储设备中之后会进行重复数据删除。在在线(inline)重复数据删除系统中,原始数据一旦到达设备立即被去重,原始数据不会直接存储到设备中,所以去重速度和读取速度是一样的。线后(post-process)重复数据删除中则是先接收、存储原始数据,然后进行重复数据删除。这段时间可能是几秒钟,也可能是几个小时,你必须调查清楚。
复制 重复数据删除率还会影响到复制过程。重复数据删除率越高,需要复制的数据块就越少。不过,要想确切地知道复制操作如何工作还得实际进行复制操作。观察有多少个数据块被复制并记录复制开始和结束的时间。可能你可以从厂商那里获取该信息,自己测试的话需要用到一个网络工具。记住,不是所有厂商都是在同一时间开始复制。当然,在去重之前系统不会复制任何数据,你也不要指望在线重复数据删除系统会在数据去重后立刻进行复制,很多厂商的产品(不论在线还是线后)都会等磁带未被使用时或文件被关闭后(NAS中)才进行复制。
翻译
相关推荐
-
简单可靠的平面备份技术
在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。
-
专家答疑:重复数据删除在云中是如何工作的?
重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。
-
全闪数据中心的数据缩减攻略
全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。
-
存储采购并非易事
硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。