如何进行数据中心灾难恢复规划

日期: 2012-10-16 作者:Steven Ross翻译:张瀚文 来源:TechTarget中国 英文

Steven Ross是Risk Masters公司的创立者和执行总裁,他近期和SearchDisasterRecovery.com的助理编辑John Hilliard探讨了数据中心内预防和响应灾难事件。本文中您可以了解到数据中心灾难恢复的最佳实践,包括如何确保数据中心容灾规划实现数据中心无缝恢复。 John Hilliard:你如何才能确保计算机系统和其它重要设备的有序恢复?是有有必要为数据中心中的所有设备准备详细的文档?同样,谁会负责各块设备片区,包括供电等其它设备? Steven Ross:让我们后退一步来谈这些问题……这并不是你需要如何恢复的问题,而是说:你需要如何构建才能使问题不成为……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

Steven Ross是Risk Masters公司的创立者和执行总裁,他近期和SearchDisasterRecovery.com的助理编辑John Hilliard探讨了数据中心内预防和响应灾难事件。本文中您可以了解到数据中心灾难恢复的最佳实践,包括如何确保数据中心容灾规划实现数据中心无缝恢复。

John Hilliard:你如何才能确保计算机系统和其它重要设备的有序恢复?是有有必要为数据中心中的所有设备准备详细的文档?同样,谁会负责各块设备片区,包括供电等其它设备?

Steven Ross:让我们后退一步来谈这些问题……这并不是你需要如何恢复的问题,而是说:你需要如何构建才能使问题不成为问题。这一问题潜在的答案是要建立一个灵活的,有弹性的数据中心,并且在企业级级别上建立这样的数据中心。这对于大型企业和政府机构非常适用。不过也有人会说,“我有一个非常重要的数据中心,业务完全依靠它,不过我还没有对其进行备份,”他们从一开始就有问题了。许多企业15年前和一家热站点供应商签署协议以获取本地的备份,于是他们想“这下数据就可以被保护好了。”不过这并不是重点。重点是理解这些设备是如何在业务流程中发挥作用的,并且跨环境进行容错所需的各项准备。除非你说“我完全可以离开系统一段日子,用磁带的方式恢复也没有什么问题。”

这样的话,假设你希望数据中心的恢复规划良好,你必须将数据中心看做业务流程,其中有大量相互依赖且变化的部分。并且,由于其中有大量相互关联的部分,当意外发生时,所有要做的事情必须预先用流程的形式写在文档上。让我很吃惊的是一些数据中心管理员就像只是个房东,对于数据中心中的设备毫无概念。这实在是相当危险,因为当所有事情都出了问题后,每个人都会将矛头直指该数据中心管理员,“好吧,你应该可以恢复这些。不过你从未告诉我它如何恢复或它如何连接,”其实所有这些都是必须要做的。

John Hilliard:你需要哪些步骤来保护数据中心,防止意外事件?

Steven Ross:很明显,你需要一整套体系架构和相关应用程序的流程。每个部件,或每个部件组通常有支持的体系架构,并且通常来讲,都有一个或一组人对其负责。因此服务器会分到服务器组中,或虚拟组中,也有可能两个都是。所有这些通常在一个体系架构组或一个运营组下面,然而当遇到重大事故时,这些都会呈现星状图拓展开来,和各容灾管理员直接对应。谁负责,谁决策,你需要做什么,以及你所做的顺序,这类管理模型必须清晰地记录下来。

John Hilliard:这类文档是否应当属于容灾规划中的一部分?抑或应当分开创建文档?

Steven Ross:我并不理解容灾规划和分开的文档之间有什么差别。很明显的是,每个功能模块必须明确其角色,负责范围,以及时间点和所需执行的流程步骤。同时启动,这就是容灾规划。

John Hilliard:如何做才能确保系统在恢复过程中不会出错?

Steven Ross:这些天我们一直在注意一件很有趣的事,我称其为“体系架构保险”,这确保在运营数据中心中,所有的资源被完全保护并具备冗余。到一定程度后我们会惊奇地发现我们所处理的绝大多数数据中心中充斥着单点故障,这让管理层也十分震惊。

John Hilliard:测试UPS不间断电源系统的最佳途径是什么?

Steven Ross:这个问题最简单的答案是运行不间断电源系统,做一次负载测试。我们需要实时测试。有一大堆的全国防火协会标准(NFPA)……这是NFPA110,其中规定了关键电子领域的供电要求。数据中心也属于其中一部分。

这是一部分风险,当然,还有一部分风险在于不间断电源是否可以支撑到发电机启动并接受所有这些麻烦。许多时候你听取你的供应商所讲的,不过让供应商参与到实际测试中还是十分必要的。你也可以通过电力公司参与测试。不过对于不间断电源这种孤立的设备,是非常重要的……但你要从端到端考虑。不仅是不间断电源,还有不间断电源的不间断电源,以及发电机,导线和电源分配器,并且按步骤从不论是变电站或发电机获取电量。很多事可以,也应该作为预防维护事件进行。每年或每半年你应该进行负载测试;你应该做预防性的监测;你应该进行红外线测试来检测电线是否老化……所有这些都是一个整体。

相关推荐