为大型归档量身打造容灾计划

灾难恢复（DR）是整个存储行业被广泛讨论的一个话题，而本文将探讨这个市场的一个具体部分：大型归档系统的灾难恢复计划。

首先来看看归档系统的定义，它特指保存信息的存储库，但其中大多数信息被访问的频率都很小。

但归档系统的定义最近也发生了变化。三四年前，归档系统一直都保存在磁带上，且只具有少量的磁盘缓存（通常少于总容量的5%）。磁带或磁盘上管理数据的软件被称为分层存储管理（HSM），35年前 HSM技术问世，被用于大型机。

现如今，一般都使用基于磁盘的大型归档系统通过网络来进行数据备份。例如，工作PC和家用PC是通过互联网进行备份，而基于云的大型归档系统也是相当普遍。

笔者对大型归档系统的定义相当简单：任何有超过2000 块SATA硬盘的系统，按照目前容量水平，大约为4 PB，明年随着硬盘容量的增加，其容量将达到8PB。在给定预期故障率的前提下，笔者使用了2000块硬盘作为归档系统大小。即使配置为RAID 6（需要2400块硬盘），在给定恢复时间内为单个应用管理这些硬盘也是很有挑战的。

三种灾难类型

需要考虑三种类型的灾难：单个文件或一组文件的丢失，元数据的损坏以及所谓的设备损坏。

单个文件或一组文件的丢失与设备损坏是两个完全不同的问题。相比彻底的灾难（地震、暴风、雷击、能源激增、洒水器等），单个文件或一组文件的丢失显得更加普遍，也更易发生。通常人们在开发系统时，都会保留至少两个数据备份。对于大型归档系统，发生灾难时考虑到重新复制数据的时间以及存储系统的数据完整性，两个备份可能是不够的。

元数据损坏问题发生的可能性不大，但确实也会发生，而且发生次数比人们预计的要多。元数据损坏可能是文件系统元数据的损坏，或在进行重复数据删除时，如果保护不力，数据块的损坏也将成为灾难。

当然，成本也在数据保护中起到了极大的作用。许多厂商都在谈论四个九、五个九、甚至八个九的可用性和可靠性。但是，当拥有PB级数据的时候，就需要重新思考这个问题。

下面的图表显示了基于几个九的可靠性下预计的数据丢失：

为大型归档量身打造容灾计划

图表显示，在十个九的数据可靠性下，一千万亿字节的数据预计会丢失900720字节。因此，对于大型归档系统来说，几个九的数据可靠性也应该纳入考虑范围。一些数据保护环境是不允许发生数据丢失的，在一个企业从模拟转移到数字时，一些管理人员并不了解，数字媒体上的数据不是百分之百可靠的，拥有多个数字媒体的备份比把书放到书架要花费更多的成本，鉴于此，数据应该迁移到新媒体上，当然，不多做些数据备份，依然不能保证百分之百的可靠性。

推荐基于磁盘和磁带的归档系统

笔者建议大型归档系统使用以下数据保护策略和程序。除特别说明，这些建议均适用于基于磁盘归档系统和磁带归档系统。

数据应该实现异地同步复制、验证，且异地应选取在灾难发生区域以外的地方。例如，如果你身处一个经常发生龙卷风的地方，那么复制的地方就应选取在距本地100英里（500英里更好）以南或以北的区域，因为龙卷风一般是向东或向西行。

利用额外的ECC或可用校验来验证数据。大多数HSM系统在磁带上都具有每个文件的可用校验，但磁盘上不具备。针对磁带和硬盘的T10 DIF/PI技术在今年将会投入使用，许多厂商也在研发端到端的数据完整性技术。校验每个文件也开始成为文件系统社区关注的一部分，但校验并不能改正数据，它只能报错。如果想知道文件中错误的具体位置，就需要在文件中加入ECC，以查看、改正错误。

对于基于磁盘的归档系统，所有的RAID设备应该启用“读取奇偶校验检查”。一些RAID阵列支持这一功能，但其他的不支持。而且部分支持此功能的RAID阵列会导致性能下降。如果存储系统的故障问题导致校验失败，“读取奇偶校验检查”功能将在每个文件校验的基础上提供另一个水平的完整性。它可确保在整个文件全部丢失之前发现RAID控制器中块文件的错误。

对于基于磁带的归档系统，需要指出的是，数据不是直接移动到磁带上，而是先到磁盘，然后再通过HSM到达磁带。RAID设备应该启用奇偶校验检查。

确保对硬盘的各个方面进行软件和硬盘的误码监视。软件误码最终将转变为硬盘误码，更有可能导致文件丢失。软件误码应该在它们转变为硬件误码之前得到迅速的解决。这对于磁盘来说是一个应该注意的问题，因为其中没有自我监控、分析和检查的技术（SMART）。

如有可能的话，定期维护和备份文件系统的元数据，以及磁带中数据的HSM元数据。因为在发生故障的时候，元数据可以在没有恢复所有数据的情况下得到修复。如果文件系统中元数据和数据是分离的，这项工作将更加容易实现。

定期验证每个文件的校验。对于大型档案，考虑到CPU、内存和I/O带宽的需求，这将成为一个重大的架构问题。

基于硬盘和基于磁带归档系统的灾难恢复计划是相似的。一些技术可能不同，但关键在于定期的检查和为将会出现的灾难作准备。太多的企业不适当投资大型归档系统，同时还不希望发生数据丢失。如果拥有一个50PB的归档系统和一个复制站点，而且因为灾难而丢失了整个归档，当重新复制站点时，肯定也会丢失数据。没有任何办法可以避免媒体的硬件误码。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

翻译

: 存储时代

为大型归档量身打造容灾计划

取消回复

翻译

存储时代

相关推荐

数据中心灾难恢复规划模板与指南

揭开灾备真相——行业现状及趋势

揭开灾备真相——那些年我们见过的灾备术语

存储经理人2017年11月刊：如何选择正确的DRaaS供应商