探讨容灾系统建设的三个难题

日期: 2011-03-22 来源:TechTarget中国

近年来,地震、海啸等自然灾难频发,使得信息系统的容灾系统建设成为各行业IT建设的重中之重。然而,不同的容灾系统建设技术与繁复的建设过程让许多IT管理者出现了放多不解现象和困惑。

如果企业能够在建立容灾系统的初始阶段就清楚的了解容灾的有关概念和技术实现手段,那么企业容灾系统建设的速度就会大大加快,并且能够做到有的放矢,提高容灾系统建设和应用的效率与投资回报率。

经过多年的容灾系统建设经验的积累,飞康总结出用户在容灾系统建设中经常遇到的难点问题,并提出了解决方案,希望可以对企业的容灾系统建设有所帮助。

灾备系统首要防范的灾难

容灾备份体系建设可以从很多个角度去考虑,但其中最重要的一项,是哪些灾难类是用户首要考虑防范的,这些灾难对于RPO/RTO指标有什么具体的要求等。

一谈到灾难的防御范围,大家习惯性的会重点考虑一些硬灾难,包括服务器、存储等硬件设备损坏造成的宕机;地震、火灾、机房进水等造成的机房失效,也有空调损坏、多站供电断电等意外;甚至当瘟疫蔓延时机房无法进入等极端情况。这类灾难一般被称为“‘硬’性灾难”或“站点级灾难”,即整个站点失效,从而整个站点所提供的服务中止。

此外,还有很多非硬性的灾难。这类灾难发生后,虽然建筑、设备、人员都是无损的,但整个站点同样失效,整个站点所提供的服务同样被中止。我们将这类灾难称为“‘软’性灾难”或“类站点级灾难”。它们带来的后果同样是灾难性的、甚至更加严重。这种灾难主要是由于一些恶意行为:如外部黑客攻击、内部高技术手段进行破坏以及一些人为的误操作(包括系统维护失误、误删除重要数据、打入冲突系统补丁)等。

硬性灾难或站点级灾难的发生是管理人员能够即刻发现的,造成的损失大多可以立刻评估、处理。而软性灾难或类站点级灾难大部分是无法被管理人员立时发现,因此造成的损失一般要远远大于前者。而且,软件性灾难的恢复非常麻烦,需要企业投入更多的资源、承担更多大的风险去解决。

传统容灾技术从诞生至今,已发展十数年未曾改变。这些传统容灾技术在帮助用户分析灾难时通常会刻意强调硬性灾难或站点级灾难的防御,而处处回避软性灾难或类站点级灾难,并将这些更具破坏性的灾难类型推卸给备份技术而逃避容灾规划中最重要的环节。

无论技术如何发展,用户对灾难防御范围的要求却始终如一:防御所有类型的灾难是容灾系统建设的首要目标!因此,找到一种能够全面防灾、时时做到‘有灾即有备’的灾备技术,成为用户灾备建设成功与否的基点。

灾备建设的成本

建设一个完备的灾备系统到底需要投入多少资金呢?投入巨资建设的一个灾备系统到底值不值呢?很多企业都对灾备建设成本的问题最为关心。

在一个灾备项目,目标、规模、风险、成本这几重因素总是紧密关联在一起的。灾备项目的成本是由前三者综合决定的。在灾备建设中,首先要考虑的是建设目标,一般而言,灾备建设目标中,我们需要考虑灾难的防御范围、恢复的效果,还需要考虑是否建设能够防御大型灾害的异地灾备系统(还是仅仅同城)等。当我们对于灾难防御的目标胸有成竹之后,我们就需要考虑建设成本了。

以往,很多人认为灾备建设的成本只是购买灾备设备的费用,而在实践中,却因为估计不足吃了大亏,根本原因是没有把灾备建设的总体拥有成本计算清楚。

要想搞清灾备建设的总体拥有成本,我们看看以下几个元素:

1)场地费用:包括灾备机房基础设施费用,灾备中心人员费用等。

2)设备费用:包括购买的灾备存储、交换机、路由器、协议转换器、主机等各种设备的费用。这些费用由于容灾技术方案的不同,组成元素完全不同。

3)传输网络费用:这一部分费用随着灾备技术路线的不同更是差距明显。尤其在异地灾备体系的建设中,灾备技术路线的不同导致的传输带宽评估有时令人难以置信,可以相差达到40倍的带宽差异。例如,采用不同的技术,也可能只需要每年支付20万的传输网络费用,也可能需要支付每年200万的网络费用,而实际效果却完全相同。

4)运维费用:这部分的费用包括向厂商购买的每年服务和应急的专业服务费用,还包括高级别的系统维护人员的费用。一般而言,随着设备开放性的增加,维护人员的成本就相应下降,而灾备应急如果能够掌握在用户手中,灾难应急时向厂商购买的专业服务费用就减少。

综合考虑以上几个方面的因素,用户就可以比较准确的计算出容灾系统建设的整体拥有成本,并能做出合理的取舍,甚至能立刻做出建同城灾备还是异地灾备的选择。

还有人认为,容灾设备的采购成本和机房建设成本加起来就是容灾系统建设的总成本。但实际情况是,容灾设备 的采购可能只需要600–700万,而用户每年要支付的网络传输成本可能高达200万,5年下来,网络费用早已超过了设备采购费用。而每年200万的网络传输成本中,却只有10%是用来传输有效数据(由于灾备技术的不同,相同的应用数据可能传输高达900%的冗余数据,自然占用大量的带宽)。

由于技术和人才有限,许多用户自己无法管理和维护容灾系统,只能依赖专业数据服务厂商。一旦出现事故,用户不仅需要向专业数据服务厂商支付大量的业务恢复服务费用,还无法控制专业服务的响应时间,快速恢复业务根本无从谈起。

灾备建设的设计者们不仅要掌握真正的成本测算规则,需要掌控灾难恢复的目标和效果,只有这样,才能避免容灾系统的重复投资和投资浪费,真正做到“有灾必备”,消除“灾难盲区”,从而有效降低容灾建设成本。

做容灾必须先整合吗

随着业务的发展,许多企业的数据中心存在不同时间建设的多个IT子系统,异构的系统环境给数据中心用户带来了新的困惑:现有的存储系统是由不同厂商的存储设备组成的,架构庞大而且十分复杂,容灾系统能在这种分散、异构的系统环境中建设吗?有人说,做容灾必须先进行系统整合,实际情况是不是这样呢?

市场中的容灾技术多种多样,包括主机复制型容灾技术、存储复制型容灾技术、CDP连续数据保护容灾技术等。如果用户采用的是存储复制型容灾技术,那就必须先进行系统整合,因为多个存储设备是不可能采用一种存储设备进行容灾的。存储复制型容灾技术不是一种开放的容灾技术,需要采用专用的单一存储设备,因此,除了进行整合,用户没有更好的办法。而其余的容灾技术都属于开放的灾备技术,系统整合则并不是十分必要。

以CDP灾备技术为例,是在主机后端的SAN上或者以太网上(即通过FC或者IP的连接),旁路加入一层数据复制器,这个数据复制器会含有一定的数据空间,它的角色就是通过关联技术持续不断地获取生产数据(以块的形式),不仅可以实现本地的数据冗余而且可以实现异地数据的复制。在异地的灾备系统中,同样部署持续数据复制器,就实现了和本地的连续数据复制器的远程灾备连接,并且将任何本地数据恢复的能力传递到异地的灾备系统。如飞康CDP,它是一种将容灾和备份一体化解决的技术,不仅可以实现达到任何IO历史轨迹的精细化颗粒度的恢复精度,而且能够在任何故障发生时,实现瞬间恢复的能力,并且十分关注恢复的有效性和效率。

CDP灾备技术由于对于每一个生产子系统都具有开放性的接入技术,而在灾备中心则可以汇聚到集中设备上来,因此完全不需要对数据中心内的各个子系统进行整合,也可以对于分布式的多分支机构的业务系统实现多点集中灾备。

由此可见,并不是所有的容灾项目都需要对系统进行整合,系统整合可能会带来很高的成本和风险。采用开放的容灾技术则是一种比较好的选择。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 福岛灾难六年祭:容灾前线,警钟长鸣

    3月11日是东日本地震海啸灾难6周年纪念日。面对灾难,福岛核电站确实启动了预案。而这个预案却仍然没能挽救核电站。事实上,这分明不是一场天灾而是人祸,也为我们敲响警钟。

  • 容灾系统挑战性能极限!春运期间谁为12306提供容灾保障?

    12306最关键的容灾系统多年来从未改变——一直采用全球领先的飞康CDP容灾技术作为Oracle RAC核心集群和电子支付交易系统的容灾的保障。那么,12306为何选中飞康CDP?

  • 【容灾真相】真案解剖

    容灾的话题一直很热,但是可供分析的实际案例却往往很少,往往是由于各种原因,相关人相互推诿,知情人讳言莫深,外人根据流出的只言片语胡乱猜测,往往与事实相差甚远,其结论往往反而误导了大众,以至于对这个重要问题的探索和研究变得十分困难。

  • 《复仇者联盟2》的IT能人:钢铁侠利用云服务打垮绿巨人

    《复仇者联盟2》中有很多IT大秀的神来之笔啊。还记得钢铁侠大战绿巨人么?你知道钢铁侠立于不败之地的秘密是什么吗?