实现灾难恢复自动化——Veritas Cluster Server HA/DR

日期: 2010-06-24 来源:TechTarget中国

虚拟大会现场视频资料请点击查看   大到服务器虚拟化,小到VMware基础架构,这些讨论都是围绕服务器整合和绿色数据中心的,不过,服务器虚拟化技术对于IT行业影响最大的非灾难恢复莫属了。   本文主要内容包括:   1、高可用性挑战和VCS的价值  2、VCS5.1的功能和特性  3、VCS的未来  4、灾难恢复功能  5、灾难恢复演示   高可用性挑战和 VCS 的价值   众所周知停机时间会造成损失,尤其是在越来越多的业务依靠互联网的情况下,这种停机的时间造成的损失更大,特别是电子商务公司。包括现在很多传统公司也是依赖电子商务手段,所以损失会很大。   引起停机的原因有很多种,有些是计划内……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

虚拟大会现场视频资料请点击查看

  大到服务器虚拟化,小到VMware基础架构,这些讨论都是围绕服务器整合和绿色数据中心的,不过,服务器虚拟化技术对于IT行业影响最大的非灾难恢复莫属了。

  本文主要内容包括:

  1、高可用性挑战和VCS的价值
  2、VCS5.1的功能和特性
  3、VCS的未来
  4、灾难恢复功能
  5、灾难恢复演示

  高可用性挑战和 VCS 的价值

  众所周知停机时间会造成损失,尤其是在越来越多的业务依靠互联网的情况下,这种停机的时间造成的损失更大,特别是电子商务公司。包括现在很多传统公司也是依赖电子商务手段,所以损失会很大。

  引起停机的原因有很多种,有些是计划内的,有些是计划外的。可怕的就是这种计划外的停机,这可能是由于硬件故障及各种逻辑故障引起的。

  高可用性一直是一个棘手的问题。尤其是现在的应用是面向最终用户的而不光是面向内部用户的,在这种情况下高可用性是一个非常重要的话题。下面我们来看一组数据

高可用性和灾难恢复调查

  从图中我们可以看出07到09比例上升,到09年有60%的系统都属于关键业务。相对来说的话,IT部门对这个应用,他们现有的高可用性和灾备方案的满意程度是下降了。

  主要问题体现在原来停机三小时我们可能接受,但现在接受不了了,因为最终客户的需求提高了,需要的服务等级提高了。相应的系统架构就不适合了。因此,高可用性就变得尤为重要了。

  赛门铁克是存储和可用性保障市场领域的领导者,在存储领域有很大的优势。我们看下图的调查统计。

赛门铁克在存储和可用性保障市场领域的地位

  赛门铁克2009 年在存储基础架构领域排名第一,2009 年在文件系统软件领域排名第一,2008 年在全球集群市场领导者领域排名第一(收入),99% 的财富500 强公司都在使用我们高可用的产品。

  现在我们来看集群产品 Veritas Cluser Server

  VCS的核心能力:

  1.经济有效的高可用性保障:与许多传统系统自带的集群软件又很大的区别。很多集群软件都是一对一的保护方式。这种保护方式不能很好地利用集群的资源,有很多的浪费。另外它不能很好地处理有依赖关系的应用。 跟操作系统绑定,不能够跨操作系统。而VCS可以多节点集群 多层次应用支持 跨平台。

  2.集中式管理:提供了一种管理工具,可以通过一个视图管理企业内所有Veritas的集群。也就是说可以通过一个界面操作而不需要登陆每个集群去管理。这样既加强了监控又提高了管理效率。还提供有直观界面的工具  还提供VCS界面可以直观的看到现在的存储结构是什么状态,能减少很多失误的操作。

  3.还提供自动进行灾难恢复 可以跟很多数据层的复制软件相结合 不管是硬件层的数据库层的或者是主机级的 都可以和很多复制软件相结合 自动地管理数据复制的方向,模式 还有切换时的数据模式的切换。这些都可以是VCS自动进行的。VCS有很多兼容链表来支持各种各样的复制方式。

  4.增强的可靠性 很多时候很多用户无法确定容灾方案的有效性,只能通过实际的容灾切换去验证,这样有很大的风险 VCS提供了很多工具可以在很小的风险情况下去验证容灾方案的有效性。

  VCS灾难恢复解决方案

  包括几个层次:

  第一个是本地的高可用,即传统的本地灾难恢复。
  第二是城域的高可用,也就是可以跨本地网进行切换。
  第三个是广域的高可用,也就是支持通过IP轻跳、支持通过广域网的复制。

  这相当于既有同城解决方案又有远程(异地)解决方案。这样管理方便,操作也方便。VCS灾难恢复解决方案是整个赛门铁克数据中心的核心,包括降低了多个单点工具的复杂性、提高了可实现性和可控制性,减少了操作员错误。

  VCS5.1的新的功能和特性

  最主要一个特性是更简单了。简化了安装和升级流程及管理模式。

  另外一个本身它在运行的时候它的软件的效率也更精简了。表现在主机占用资源更低,软件包减少了70%,使得软件的效率也有大大地提高。

  第三个是更灵活 提供了很多升级方面,使得整个的安装维护和升级更加简单,减少你的停机时间。

  第四个是自动化 也就是加强了很多操作方面的优化。具体情况看下图

VCS5.1的新的功能和特性

  现在看一下VCS5.1的特性

  SFHA Web安装程序(从5.1版本开始提供)

  对于不熟悉产品的人来说比起以前的自主界面,它的操作更简单了。可以通过浏览器的方式安装。不需要安装前做很多复杂的比如到每台服务器去安装。 安装更简单、直观。

  更灵活 安装无需重新启动

  以后升级也不需要重新启动。这对用户很重要,以前用户在安软件的时候、打补丁程序的时候都需要多次的重启。一些高端的服务器重启的时间很长,这样使用户感觉很不方便。5.1版本后这些问题都解决了。对于支持的升级路径(参阅下表),从旧版本升级到5.1 之后都无需重新启动。

VCS5.1的特性


  从5.1开始我们支持滚动升级

  这对用户非常重要,当你已经实施了5.1后,在这以后的版本我们将最大程度的减少对应用的影响。这被称为任务分割式的升级,也就是说在升级过程中我们允许在不同的集群内不同的服务器运行不同版本的GAB和LLT,也就是在升级过程中允许不同的class升级。

  下面看一下不停机升级的一个示意图

不停机升级

不停机升级

不停机升级

不停机升级

  在这个整个升级过程中,对应用的影响非常小。对应用程序来说只有一次正常切换操作。

  另外一个是VCS5.1提够了自动化 “VCS代理”查询和下载

  这个在外网也可以查到。网址是对外开放的:http://vos.symantec.com/agents 。在这个网址上可以查到所有VCS支持的代理及下载包。

  下图是查询界面。

查询界面
  我们可以看到查询界面很清楚,你可以选择哪个操作系统,包括文档和应用程序的下载。

  优化VOS的整体客户体验

  包括管理风险:能够实时主动地通知发现新的补丁程序 还可以提高操作 可以通过这个网站输入一些具体信息后 我们会帮你列出一个升级步骤及你所需要的环境上的不足的 也提供最佳实践告诉你那些是最优的安装、调试等解决方案。

  还有一个是Symantec|Connect合作伙伴社区。网址是http://symantec.com/connect 在这个论坛上每月150万访客,每周4,000 个新项目。在这里可以得到很多知识包括别人应用中的问题及赛门铁克提供的文档。

  技术方面在5.1版本上新加了一个技术点:Coordination Point Server(CPS)。

  CPS的出现主要解决了两个问题,一是减少了资源的消耗,二是可以扩展磁盘阵列。CPS可以共享,例如三台CPS可以放在物理不同的地点由多个集群共享。CPS完美地解决了高可用性问题。在VCS5.1中CPS是一个很大的亮点,解决了原来解决不了的高可用性问题。以后新加的服务器都可以使用这个CPS架构, 它只需是一次投资就可以实现多次扩展。

  VCS的未来发展

  第一个关于监控架构 :异步监控架构

  我们看一下传统的VCS架构是怎样实现的。传统的是轮转结构,它会通过一个代理去执行一段代码实现监控。监控时间隔默认是60秒,也就是在60秒内各种各样的代理都会去运行一次。虽然很有效但也有一些问题。当代理多或监控多时,会增加监控的资源,增加监控的负载。 如果间隔大了,高可用性就会下降;而监控小了,负载就会变大。传统架构虽然很有效但存在缺点。

  异步监控框架(AMF)是在代理下的一个架构。所有的代理都会向AMF去注册资源,再由AMF去管理资源。当资源状态改变时AFM会通知代理。这样避免了以前的监控间隔的方式,能更快的发现故障,降低系统资源的利用率。异步监控架构将是VCS未来发展的一个重要方向,这主要是为了提高监控的效率。

  第二个64个节点的支持

  目前VCS 在一个集群支持多达32个节点,但是客户扩展VCS 的需求有所提高,这些主要需求来自CFS 环境,因此我们需要对SFCFS的64节点支持。赛门铁克最早目标交付平台是Linux、Solaris。

  未来还会提供非SCSI-III 防护机制

  这跟CPS也有关系,这对磁盘阵列要求比较高,限制了客户硬件使用范围。

  灾难恢复功能(关于VCS)

  VCS可以实现本地高可用,当本地高可用发生故障能切换备机。同时也可以实现同城高可用,即同城不同机房的扩展方式,使用起来和本地高可用一样。同城高可用底层用栈管理的方式,实现数据的完全同步即RPO=0。在应用层通过VCS来实现自动地应用的切换,实现了同城的业务的最大的联系。这种方式最大的限制来自距离的限制,限制在100公里以内。一般客户在20~30公里。它还支持广域网的灾难恢复。广域网的恢复下客户一般采取异步的方式,即RPO>0,这种情况下可以与许多灾难镜像相结合,包括阵列的灾难技术。远距离操作也可通过图形化界面进行,我们称作一键故障恢复。

  VVR

  VVR是非常经济有效的灾难恢复软件。它能实现各种数据类型的复制,支持数据库也支持文件系统并支持异构存储。

  VVR的异步操作见图

VVR的异步操作

  其中绿色的是不在执行路径之内的,它会异步的把数据传到灾难节点。VVR有两个I/O路径。绿色的对带宽要求不严格。

  在灾难恢复环境中进行测试(解决客户灾难恢复演练过程)

  灾难恢复的一个主要问题就是关于变更的管理。

  一个容灾系统实施后有很长时间没有进行演练,在这过程中生产系统发生了很多改变,例如操作系统的升级,配置文件的升级等等,这些都有可能造成最终的容灾切换不成功。为什么变更会导致问题?因为测试的成本非常高,27% 的企业认为灾难恢复测试影响收入,将近50% 认为灾难恢复测试会中断员工的工作。50% 的大型企业一年进行的测试不超过一次,在4 次灾难恢复测试中,1 次以上以失败告终。

  VCS有一个很重要的功能,这个在老版本中就有,那就是模拟灾难的功能。VCS会去创造一个演练的过程。步骤如图所示。

VCS模拟灾难功能步骤

VCS模拟灾难功能

VCS模拟灾难功能

VCS模拟灾难恢复步骤

VCS模拟灾难恢复过程

  这样既不影响业务、系统等等,又可以进行灾难的测试。风险低但验证很彻底。

相关推荐

  • 数据中心灾难恢复规划模板与指南

    阅读本篇有关数据中心灾难恢复规划指南,然后免费下载我们提供的模板,评估数据中心设施及其基础架构在灾难期间的表现。

  • 揭开灾备真相——行业现状及趋势

    笔者在上一篇文章《揭开灾备真相——那些年我们见过的灾备术语》里介绍了灾备领域常见的一些专业术语,本文将站在行业角度,介绍灾备市场的现状及未来趋势。

  • 揭开灾备真相——那些年我们见过的灾备术语

    作为数据保护的最后一道屏障,灾备系统的重要性不言而喻。IT圈好像一夜之间都在说灾备,那么到底什么是灾备?为什么灾备如此重要?未来发展趋势如何?本系列文章带你认清灾备真相。

  • 存储经理人2017年11月刊:如何选择正确的DRaaS供应商

    《存储经理人》2017年11月刊重点介绍如何选择正确的DRaaS提供商:DRaaS供应商应当具备四项关键技能,以能够全方位应对所有潜在灾害。本期杂志还介绍了下一代线性磁带开放标准LTO-8,云中数据存储的注意事项以及驱动企业采用云存储的主要因素,同时阐述了冷存储需求不断高涨以及二级存储的现代化转型等现状,提醒大家在文件同步和共享时应确保数据安全,以及如何为未来的闪存做好准备。