为什么监管DR预案像驯养家猫?

日期: 2015-09-28 作者:Jon Toigo翻译:许明 来源:TechTarget中国

目前很多服务器虚拟化和软件定义数据中心的推广者在极力宣传,具有 failover 功能的高可用(HA)集群已经能够替代传统的数据保护和业务连续性(BC)技术,但实际上,复杂的业务场景不能一概而论。高可用技术一直作为构成数据保护策略和应用程序恢复策略等业务场景的一部分而存在,但并不是每个应用程序都需要做到“永远在线”,也并非每个应用程序都值得为了做到高可用而投入高额成本。 不同的数据类型需要不同的保护方案 如果要较好的实现数据保护的目的,需要将正确的数据保护服务应用到正确的数据上。“正确的服务”这个词根据上下文来看是指最合适的意思,需要根据被保护的应用程序或业务流程的关键程度和相关数据恢复时间的……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

目前很多服务器虚拟化和软件定义数据中心的推广者在极力宣传,具有 failover 功能的高可用(HA)集群已经能够替代传统的数据保护和业务连续性(BC)技术,但实际上,复杂的业务场景不能一概而论。高可用技术一直作为构成数据保护策略和应用程序恢复策略等业务场景的一部分而存在,但并不是每个应用程序都需要做到“永远在线”,也并非每个应用程序都值得为了做到高可用而投入高额成本。

不同的数据类型需要不同的保护方案

如果要较好的实现数据保护的目的,需要将正确的数据保护服务应用到正确的数据上。“正确的服务”这个词根据上下文来看是指最合适的意思,需要根据被保护的应用程序或业务流程的关键程度和相关数据恢复时间的要求来考量。“正确的数据”是指需要被保护的特定类别数据。数据本身没有价值,但是其传达的业务流程信息(就像DNA那样)是有价值的,对于一个公司或组织来说,并不是所有的业务流程都是同样关键的。同理,并不是所有的数据都是同等重要的。所以,数据保护的规划者们可能不需要在非关键业务上花费金钱和精力去部署高可用服务,这些非关键业务并不必须在一次业务中断之后的几天内,甚至是几周内完成业务恢复。

需要认识的底线是,世界上不存在“大小通吃”的备份保护策略。对于大多数IT部门而言,一个数据保护策略应该结合不同的技术来实现各种不同业务负载类型所对应的合理恢复时间。多数情况下,一个数据保护策略会随着时间的推移,以及可以提供一层层数据保护的工具和软件的引入而发生调整,这些通常是为了应对能够感知到的不同程度的威胁。

超越数据复制

很多组织对于某些业务数据的保护十分头痛,这些数据需要在创建的时候就对其进行保护和校验,通常需要避免会造成数据损坏的接口和协议上的错误,同时要注意数据保存介质本身的问题。在物理介质层的 I/O 上,一些技术通过不同手段进行数据复制,可以实现不同的保护目标,如避免应用程序的逻辑错误(连续数据保护技术),避免物理设备的故障(数据镜像技术),避免数据中心设施故障(通过离线存储备份或者跨城市区域网络进行数据同步)。一些百年一遇的自然灾难(恶劣的天气事件,洪水等等),目前来看,似乎每年都会发生,所以通过远程异步数据复制技术将数据复制到一个至少80公里以外的备份场所中,这种做法被认为是预防严重的自然灾害事件的黄金标准。

事实上,在今天的许多业务场景中都已经使用了混合的备份保护进程。一些备份保护进程可以通过几种方式发起和控制,如通过应用程序自身、通过应用程序使用的数据库、通过操作系统或者服务器虚拟化管理程序等。一些第三方备份管理软件,如 ARCserve 公司(前CA 科技)的备份软件,IBM 公司的 Tivoli 软件,以及 Symantec 公司等等,用户通过这些第三方备份管理软件可以实现数据的备份、数据的快照、在数据管理层(如 CommVault 和 Tarmin)对数据进行保护、在存储虚拟层(如 DataCore)对数据进行保护,这些技术让如何管理一个多层结构的“深层防护”策略迅速变得复杂起来。

上述这些还不是问题的全部。如果你还需要使用基于硬件的数据保护服务,如采用存储设备中的专用控制器的增值软件功能,这些增值功能包括数据镜像、数据复制和数据快照等功能。不同的数据保护服务夹杂在一起使得对于数据保护的监控和管理变得像在家中养着一群猫一样。

灾难恢复的复杂性剖析

由于用户对于服务器虚拟化技术接受程度不断提高,业界有一种对于所谓的“万能的高可用策略”的需求。虽然这种做法可以在一定程度上通过集群故障迁移技术实现简化数据保护的步骤,但并不是所有的数据保护都支持这种做法。

首先,即使当前关于服务器虚拟化部署最乐观的预测成为现实,到2016年也仍然有差不多21%的X86平台的关键业务(产生收入的高性能事务处理程序)运行在高达75%的没有使用任何虚拟化技术的物理服务器上。所以,针对虚拟化和非虚拟化的不同服务器采用不同的策略是很有必要的。

在采用了 x86 虚拟化技术的工作负载中,一些虚拟机(VMs)和它们对应的数据盘(表现为VMDK 和 VHD 文件)相比其他虚机和数据盘次要一些。在没有使用虚拟化技术的环境中存在很多不同的虚拟程序,但并不是所有的应用程序都是关键业务相关。传统的服务器环境中,一些应用程序和虚拟机被频繁使用,也有一些使用的不是那么频繁,这些现实情况都影响着数据备份和数据复制的频率和策略。

服务器虚拟化在一定程度上增加了数据保护方案的复杂性。考虑到虚拟化管理程序的主要软件厂商现在鼓励用户在每一台使用虚拟化技术的物理服务器上使用服务器直连存储(DAS)取代传统的SAN存储网络。在采用服务器直连存储之后,虚拟化管理软件厂商推荐使用存储阵列的镜像服务将数据从本地服务器直连的阵列复制到远端另一台服务器直连的阵列中,远端服务器以后可以运行复制过去的虚拟机。这种做法会导致数据复制进程和相关的数据流大量使用本地网络资源,加剧一个本就非常棘手的数据镜像问题:大多数数据的镜像并不会对镜像的数据进行校验,因为对数据镜像一致性检查的步骤十分繁琐而且存在风险。(要完成数据镜像的校验,首先需要将应用程序设置为静默状态,清空缓存数据并写入到磁盘A上,再将数据复制到磁盘B上,然后切断镜像复制关系,再比较磁盘A和磁盘B上的数据从而进行一致性比对,然后将您的双手交叉,重新恢复镜像关系,重新启动应用程序并且祈祷所有的数据都已经成功完成同步。下一次开始镜像时再次重复上述操作步骤。)

监控灾难恢复进程

目前的现实是很多硬件设备和软件流程都被设计为在面对常见的威胁时仍然能够对数据进行保护。每一种流程或方法都对应不同的成本,提供不同的时间换数据的级别,因此根据不同的可用预算,不同的恢复时间目标和恢复点目标去选择合适的灾难恢复方案是非常有必要的。灾难恢复预案的筹划还必须要协调各种资源和设定计划,避免对应用程序,虚拟机性能或者网络的吞吐量产生任何不良影响。理想状态下,灾难恢复的过程对最终用户来说应该是透明的,但同时又是可以被管理员全方面监控和实地验证的,预期保护的数据可以被应用到设定的数据目标中,最终的理想结果是这些冗余的数据和应用可以在预定的时间内被恢复和使用。

监控数据保护服务的能力对于确保数据能够以正确的方法所保护是非常重要的。这种对数据保护服务结果的实际验证能力对于减少正式测试计划中的压力(连续性计划的长尾成本)是非常关键的。如果您可以持续的确定正确的数据被正确的备份并且可以在需要的时候可靠的恢复,也就没有必要再通过正式的测试场景去验证数据的可恢复性。这将会减少测试验证工作和相关的投入成本。

对于数据保护服务流程和结果的监控和确认面临的挑战是缺少一种综合的全面管理技术,这种管理技术可以捕获数据保护进程的相关信息,还可以通过一个集中的数据仪表界面展示出来。目前对于数据保护服务的监控仍然是比较分散的。

一些优秀的产品,比如 ARCserve Unified Data Protection(UDP)产品,提供了一套集成的基于软件的服务体系,其中包含对磁带备份,磁盘到磁盘的数据复制和镜像,以及故障迁移集群复制等的监控,这些监控内容都可以使用这个产品自带的仪表盘界面实现快速简单的部署和监控。其他一些 geo-clustering 产品也具有类似的功能,比如 Neverfail 集团的 Neverfail 产品线(许多 VMware HA 解决方案都采用这种产品实现远距离故障转移),还有 Vision Solution 公司的 Double-Take 软件产品。

两个仪表盘或许比一个好

不幸的是,这些产品都不会读取或者汇报来自于不同软件或硬件创建和管理的数据保护服务的状态信息。或许最佳的以硬件为核心的监控是 Continuity Software 公司的 AvailabilityGuard 产品套件。这个公司的产品解决了当前业务连续性和数据保护所面临的首要问题:配置漂移,镜像和复制的同步缺口,使用正式灾难恢复(DR)去验证数据的可恢复性的无效性。一定程度上可以说,他们在通过使用技术手段接近实时的获取进程(那些被监控的进程)状态信息的厂商中是走得最远的。和 ARCserver UDP 等产品不同的是,Continuity Software 公司的许多产品都倾向于关注基于硬件的数据保护服务,而不是基于软件的数据保护服务。

在理想的世界中,或许有必要具备至少两个以上的控制台去监控深度防护的包含全部硬件和软件服务的数据保护策略。然而,这个行业对统一数据保护(unified data protection)的关注(同时也是用户的兴趣所在)预示着未来对于统一数据保护服务的监控和管理这一市场的良好前景。(注:Unitrends 公司第一个使用了统一数据保护这个术语,目前有许多厂商都在使用)

最近,EMC 公司一直将其数据保护顾问(Data Protection Advisor)产品作为一种统一的数据保护管理解决方案进行兜售,这个产品具备自动和集中的收集以及分析数据保护服务的功能。不幸的是,根据其产品功能宣传册,Data Protection Advisor 目前仅直接支持EMC公司自己的存储硬件产品线,但这个产品具备一个集成的接口,可以收集第三方备份软件产品、数据库平台和VMware产品所控制的复制进程等的状态信息。Data Protection Advisor虽然不是一把真正的瑞士军刀,但已经比较接近了。

目前真正需要的是一种分布式的系统,类似于 21st Century Software 公司的面向大型机的 DR/VFI 产品。这家公司是数据镜像透明技术的早期创新者,利用这种数据镜像透明技术可以确保应用程序在线的前提下进行镜像卷的数据一致性检查。现在,这家公司正在积极大跨步的进行着双活集群(active-active clustering)和数据同步复制进程可视化方面的技术创新研究。这种技术有望让更多的应用程序在IT领域的各个方面更好的发挥作用。

对于数据保护服务技术发展的愿望清单上还有一个实现对 RESTful 架构支持的期待。鉴于数据保护的核心是基本的数据复制、使用简单的 RESTful  协议在目标之间( 可以是两个磁盘,两个存储阵列或者两个数据中心)进行数据复制,这似乎提供了一种标准化的权宜之计,可以真正的“通用化”的完成数据保护服务的交付。

现在,统一数据保护服务管理这个词很像十年前的综合网络管理这个术语。这个词具有几百个不同的含义,包括从“同一个小册子中列出的所有产品都已经集成在一起”到“所有的进程都共享一个公共的数据库架构”。当前,在选择一个产品进行部署之前要仔细阅读所有的技术和功能规格表,而更好的做法是使用这些产品的测试版对这些产品进行功能验证测试,功能测试验证完成之后再来确定具体哪一款产品可以真正的满足您在数据保护功能方面的要求。对于数据保护产品的选择就像在家中养猫,没有进行深入的了解和实地验证是不行的。




本文选自存储经理人2014年9月刊:移动备份,欢迎下载阅读PDF版本。

翻译

许明
许明

相关推荐

  • Pure Storage推出ObjectEngine备份设备

    闪存存储先驱Pure Storage公司开始进入云备份领域,让客户可对亚马逊云计算服务(AWS)上的数据进行重 […]

  • 数据中心灾难恢复规划模板与指南

    阅读本篇有关数据中心灾难恢复规划指南,然后免费下载我们提供的模板,评估数据中心设施及其基础架构在灾难期间的表现。

  • 对象存储备份最大的好处是什么?

    对象存储使得云备份更加实用,并且支持大规模的可扩展,因为对象存储主要是为了扩展而设计的,所以在低成本的商品硬件上存储对象存储通常是可以接受的。

  • 揭开灾备真相——行业现状及趋势

    笔者在上一篇文章《揭开灾备真相——那些年我们见过的灾备术语》里介绍了灾备领域常见的一些专业术语,本文将站在行业角度,介绍灾备市场的现状及未来趋势。