部署重复数据删除的技巧

日期: 2010-08-04 作者:Alan Radding翻译:冬瓜头 来源:TechTarget中国 英文

了解并对当前的重复数据删除算法和理论进行分类,只是一个存储经理在部署重复数据删除系统任务中的第一步。下面所列出的一些经验和建议,将会帮助存储经理们在部署重复数据删除系统的时候快速扫清绊脚石。   1.了解你的数据。“人们一般都不会掌握他们的数据变化情况以及数据保留周期。

”Wunder说道。掌握了这些情况是非常关键的,它可以让你初步估计你将会得到的去重比率,以及你到底需要多少磁盘容量。“我们一般以60天为一个数据保留周期以节省成本。”他补充说道。

  “厂商一般都会帮你来估算你需要的存储空间容量,而且他们对此比较专业,做的不错。”ESG的Whitehouse说。比如,Adventist Heal……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

了解并对当前的重复数据删除算法和理论进行分类,只是一个存储经理在部署重复数据删除系统任务中的第一步。下面所列出的一些经验和建议,将会帮助存储经理们在部署重复数据删除系统的时候快速扫清绊脚石。

  1.了解你的数据。“人们一般都不会掌握他们的数据变化情况以及数据保留周期。”Wunder说道。掌握了这些情况是非常关键的,它可以让你初步估计你将会得到的去重比率,以及你到底需要多少磁盘容量。“我们一般以60天为一个数据保留周期以节省成本。”他补充说道。

  “厂商一般都会帮你来估算你需要的存储空间容量,而且他们对此比较专业,做的不错。”ESG的Whitehouse说。比如,Adventist Health的Aubry曾经请求Data Domain以及ExaGrid对某个重复数据删除方案做容量估算。“我们告诉他们说我们了解我们的数据,同时也请他们来看一看我们的数据以及我们当时正在做的事情。然后,他们各自给了他们的估算结果,两家的结果是差不多的。”Aubry说。这件事情发生在两年前,如今看来,估算结果依然相当精确。

  2.了解你的应用系统。不是每个重复数据删除产品对待不同的应用系统数据都一视同仁。对于一些特殊的数据结构、不寻常的数据格式,或者一些应用程序存储数据的方式以及可变长度的数据,这些均会影响一款重复数据删除产品的工作方式以及去重比率。

  Philadelphia law firm Duane Morris LLP公司使用了Avamar Technologies的Axiom(Avamar如今已被EMC收购)作为重复数据删除系统。他们惊奇的发现:“这套系统对某些应用程序数据确实是管用的,但是它却对Microsoft Exchange一点用也没有。” Duane Morris的CIO John Sroka说道。

  对于这家公司的600万个Word文档,Avamar应对起来没有任何问题,但是当它遇到Exchange的数据之后,“去重系统竟然每次都会认为Exchange的数据是全新的,没有一点冗余,也不会进行去重操作。” 他在报告中这样写道。(最新版的Avamar已经解决了这个问题)。然而,Duane Morris却不想大动干戈的来升级Avamar。“我们已经转而使用Double-Take的产品了(Double-Take Software公司产品),这个产品带有实时远程复制功能,这一直都是我们想要的。”Sroka说。

  3.对于压缩过的数据,不要对其进行去重操作。“对已经被压缩过的数据再进行去重操作就等于浪费时间。我们曾经尝试过,但是得到了一些非常糟糕的比率,”Thomas Weisel Partners LLC(一家San Francisco投资的银行)的CIO Kevin Fiore说到。这家公司作为Data Domain的用户已经两年了,他们对未压缩过的数据进行去重之后,达到了35:1的比率。对于一些数据程序和其他在存储数据时对数据进行压缩处理的程序所生成的数据来讲,去重比率降低到了个位数。

  当对混合应用程序数据进行去重操作时,Thomas Weisel曾经得到过的去重比率范围在12:1到16:1之间。对于那些不打算保留很长时间的数据来讲,根本不值得对其进行去重操作。除非数据保留周期足够长,以至于需要多次被备份,否则的话,去重带来的好处微乎其微。

  4.不要对那种单一盒子的方案抱有幻想。“早期时候,有些公司倾向于使用一种快速便捷的单设备解决方案。但是后来他们发现需要扩展系统容量的时候,他们不得不在系统中引入越来越多的设备节点。从某种角度来看,他们已经无法控制这种头疼的事情了。”ESG的Whitehouse说道。单一盒子去重设备确实部署起来很便捷,但是除非这种设备支持某种方式的全局重复数据删除方案,否则的话,公司就会发现随着被引入的单设备节点越来越多,他们将不得不管理这些去重孤岛了。这种情况下,公司也不会享受到全局重复数据删除所带来的好处了。

  Magnum Semiconductor的Wunder迅速证明了这个陷阱。“我们研究过Data Domain,但是我们发现它无法扩展。某些情况下我们需要多台设备节点,每个都售价80,000美元。”他说。

  5.一定要在大量实际的数据基础上测试重复数据删除产品。“这种测试是极其耗费时间的,正因如此,不少公司都略过了这一步。通常情况下,公司都只对很小一部分数据进行测试,但是其结果与对大量数据测试之后的结果是没法比的。”GlassHouse Technologies的Preston说道。理想情况下,你应当部署对应产品的Demo版本,然后用它对实际数据进行去重,周期维持在一个月左右,然后你再决定是否采用它。然而,多数厂商不会配合,除非它们感觉不这样做的话很可能丢单。

  Adventist Health比较幸运。它们在经过与Data Domain和EsaGrid的工程师们漫长的在线会议之后才最终做了决定。在这些会议以及它们自己内部分析的基础上,它们最终决定选择ExaGrid。当这个决定做出之后,Adventist Health出于礼貌将结果通知了Data Domain。然而,Data Domain似乎并没有放弃,竟然给Adventist Health提供了一台测试设备。

  “当我感觉到我可能做出了错误的决定的时候,我有些紧张。我们将两家厂商的产品都用了起来,打算最后淘汰一个。”Aubry说到。ExaGrid的设备已经被安装在了Adventist Health的外部路由网络中,Data Domain的设备则被安装于内网,内网中还连接了介质服务器。

  “当时我估计Data Domain会胜出,因为它被部署在了内网中,”他说。通过对端到端过程所耗费的时间测测量,ExaGrid快出了20%。这个结果令Aubry感到如释重负,因为他已经向上级提交购买ExaGrid的请求了。

  正像任何用户购买任何产品时的心态一样,在面对重复数据删除产品的时候,也要有如下的心态:要明确知道你在购买什么产品,先试后买,你购买的过程可能有长有短,一款产品过去的性能表现不代表它将来可能达到的表现,一种型号或尺寸不见得可以满足所有要求,等等。幸好,这是一个充满竞争的市场,价格也是可以商榷的。451 公司的调查结果显示,2009年重复数据删除市场份额已经达到了十亿美元,而三年前,市场份额却只有一亿美元,可见重复数据删除技术的火热程度。存储经理最终应该可以以一个充满竞争力的价格购买到可以满足他们需求的最合适的产品。

上一篇文章 看各种技术方法如何造就重复数据删除技术的神话

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 评估数据备份与恢复过程的正确姿势

    数据丢失已是一种极为常见的难题,因此企业或组织会考虑将数以百倍的数据量进行备份,而在恢复时却远没有这么多。换而言之,这种备份定会产生些许商业价值;又或者是我们是否可以在保证商业价值的同时,减少些许工作量。

  • 无代理备份有哪些好处?

    无代理数据备份比基于代理的备份提供了一些主要优势。应尽可能使用该技术,对VM备份尤其有用。

  • 你的存储灾难恢复计划考虑到了天气威胁吗?

    硬盘驱动器或是固态闪存、本地存储或是云端站点,不论数据存放在哪里,它都面临着风险。身处沿海区域的企业机构在夏季会密切关注天气的变化,从中预感到即将发生危险,IT规划师同样如此。