讲述:移动BOSS系统十年备份内幕

几乎所有的企业都会做数据备份,但是数据备份的作用和效果,往往要等需要数据恢复时才能发现。就像买保险,不出险的时候,人们很难体会到保险的价值。因此,对于备份系统的建设,备份策略的执行,很多时候人们并没有像对业务系统那么认真,效果好坏也不为知。笔者从2000年开始一直负责备份系统的建设,十年的时间里也积累了不少经验,其实数据备份领域有不少鲜为人知的事,不是从事数据备份工作的人很难体会到。
备份不成功时有发生
大多数企业都已经部署了技术先进的备份方案,但很少有企业会执行常规性的可恢复性检测,以验证备份是否可行和成功。实际上,诸多原因可以造成备份系统失败或数据丢失的现象。有些企业等到真正需要那些备份数据时,才发现原来一些重要的数据并没有备份成功,或者虽然当时备份成功了,但后期因种种原因不能成功恢复,直接造成严重的经济损失。
2009年1月19日至2月18日,福建移动采用EMC公司的数据备份评估分析服务,针对其当前BOSS系统数据备份的实际运行情况,进行了为期一个月的评估,测评的结果显示备份的成功率平均高达99.99%,没有达到100%的原因是,2009年2月3日有两台服务器备归档日志出错,该日志已被其他备份任务备份并删除,所以数据实际上已经被100%成功备份,这是一般备份系统很难达到的高度。
福建移动BOSS备份任务执行情况评测结果(2009.1.19-2.18)
当前行业内备份系统的平均水平,可以其它两个兄弟省份公司的近期备份评估结果为例,2008年7月8日至7月30日,经过对“甲”公司备份系统进行测试后发现,其中有个服务器不能正常备份,另有一个为营帐数据库BCV(业务连续性卷)做磁带备份的服务器,出现了2次备份失败,而此服务器备份的都是关键数据并且数据量巨大。
评估期间还发现,因机房调整导致备份作业部份监控数据的收集中断,无法得到完整的备份作业监控报告。2009年1月8日至1月20日,在“乙”公司的BOSS备份系统中做备份系统评估时,也发现和“甲”公司类似的问题,还有个别服务器甚至没有执行部份备份任务。
福建移动备份发展四个阶段
自2000年至今,福建移动的备份系统建设主要经历了四个阶段。
2000年到2003年的第一阶段,福建移动在Oracle数据库引入了RMAN数据库物理备份工具,并率先使用Oracle RMAN备份工具结合EMC Networker备份管理工具进行数据库的在线物理备份管理。
福建移动BOSS系统发展历程
2003年到2006年的第二阶段,福建移动BOSS系统集中化改造完成,并形成了大型集中的数据中心,备份系统结构上利用了SAN网络搭建新型的备份系统架构,实现了备份存储资源的虚拟化,以及全面的LAN-free(数据不经过局域网直接进行备份)备份方式。
2006年到2008年的第三阶段,实现了多个远程机房组成一套备份SAN网络,并由一个备份系统管理多个远程系统数据备份,并引入虚拟带库和ATA盘阵作为备份存储介质,通过多级备份存储结构实现自动化的异地备份保存。2007年,福建移动完成了BOSS系统容灾建设,在此基础上,福建移动通过快照数据库的备份,实现了对生产数据库无事务丢失的数据恢复。福建移动的BOSS系统设备分布在同城的4个机房,其中一个机房关键业务数据量少。
于是,福建移动将其它三个机房节点采用2对DWDM 2GB光纤打通远程备份通道,形成三个远程节点备份SAN网络,并用一套备份系统管理三个远程系统的数据备份。由于有一个专门的备份SAN网络,就可以减少生产系统SAN网络的不稳定,减少备份过程对主机HBA卡数据流量过高的影响,保证备份方式的灵活性,自动实现异地数据备份与保存。与些同时,福建移动整体上实现根据不同需求进行不同等级的备份。通过引入EMC虚拟带库作为备份存储,虚拟磁带库的RAID技术保证了备份数据的可靠性,从而解决传统磁带库具有高机械故障率的特点。
从2008年开始进入第四阶段,福建移动BOSS建设完成容灾系统,利用容灾端资源进行数据备份。EMC Symmetrix存储阵列的同步数据复制技术,保证了同城模式下容灾端数据与生产端实时同步。这样,可将数据库物理备份放在容灾端的快照数据库进行,降低生产系统资源开销的需求,增强了数据备份的可靠性。同时,能够实现增量备份,能提供历史数据的恢复需求。

david.huang  发表于: 2009-09-21

我要回答

电子邮件地址不会被公开。 必填项已用*标注

敬请读者进行回答,本站保留删除与本问题无关和不雅内容的权力。

相关推荐