端到端错误检测工作得怎样? 过去18个月间,来自用户的证据表明硬盘错误检测机制可以工作。对在关键业务中存储PB级数据的大型IT机构的寻访显示出很高的的满意度,这些机构包括政府实验室、高能粒子研究所、数字电影/视频制作与发行公司等,统计上来说,静默数据损坏很容易在这些地方出现。来自一位不愿透露姓名的IT经理的经典回答是:“我再也不担心静默数据损坏了,它对我们已经不是个问题。” 原位修复 传统的磁盘系统设计把出现坏磁道的磁盘标记为失效。
而失效的磁盘会激发很耗时并影响性能的RAID数据重建。而且这种方式可能会很不经济,因为那块硬盘可能还有其利用价值。 原位修复系统通过一系列的自动修复流程来减少或者避……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
端到端错误检测工作得怎样?
过去18个月间,来自用户的证据表明硬盘错误检测机制可以工作。对在关键业务中存储PB级数据的大型IT机构的寻访显示出很高的的满意度,这些机构包括政府实验室、高能粒子研究所、数字电影/视频制作与发行公司等,统计上来说,静默数据损坏很容易在这些地方出现。来自一位不愿透露姓名的IT经理的经典回答是:“我再也不担心静默数据损坏了,它对我们已经不是个问题。”
原位修复
传统的磁盘系统设计把出现坏磁道的磁盘标记为失效。而失效的磁盘会激发很耗时并影响性能的RAID数据重建。而且这种方式可能会很不经济,因为那块硬盘可能还有其利用价值。
原位修复系统通过一系列的自动修复流程来减少或者避免出现“未发现磁盘错误”一类的错误,以及随之而来的不必要而且消耗极大的RAID数据重建。
目前有五种系统提供原味修复功能:Atrato的Velocity1000(V1000),DataDirect网络的S2A系列,NEC的D系列,Panasas的ActiveStor,以及Xiotech的Emprise 5000。它们都提供经过检验的,albeit完全不同的原位修复技术。
Atrato把他们的 V1000使用的技术称为错误检测、隔离及恢复(FDIR)。FDIR持续监视部件和系统的健康状况,并辅以自诊断和自动修复。通过使用FDIR,Atrato能够将SATA磁盘的表现和他们的通过对超过10万块SATA硬盘进行运行可靠性检测而得到的大量数据进行比对。FDIR使用基于那些海量运行可靠性检测历史数据、压力测试、以及失效分析而得到的判断方法来判断SATA硬盘的错误。然后它将使用Atrato虚拟化软件(AVS)来处理最新发现的磁道错误(暂时性或者永久性不可访问的不可修复的磁道)。AVS的自动后台磁盘修复通常能防止多数的类似错误。当其一旦出现时,AVS会以磁道为单位将其重映射到虚拟备用SATA硬盘上。这避免了出现坏道的SATA磁盘被强制进入永久性的完全失效状态,允许磁盘被恢复到完全正常的状态。
DataDirect网络的S2A的原位修复功能在移除失效硬盘之前会尝试多个级别的修复。首先它会保留对所有行为异常的硬盘的写操作记录,然后进行修复尝试。如果修复成功,只有一小部分的磁盘数据需要依靠写入记录进行重建。减少需要重建的数据能明显缩减重建时间,而且避免了返厂维修。
NEC的D系列Phoenix技术能检测磁道错误,并允许依靠RAID组内的其它磁盘继续提供服务。只要能分配替代扇区,硬盘就可以重新加入RAID组中继续工作,而不需要完全重建。Phoenix技术能保证检测和修复过程中的吞吐量性能。
Panasas的ActiveScan功能持续监视数据对象、RAID校验数据、磁盘介质和磁盘属性。当它检测到潜在的硬盘数据块问题的时候,数据会被转移到同一磁盘的备用数据块上。通过对硬盘SMART属性值的统计分析可以预测未来的磁盘失效,从而在产生失效之前对数据进行保护。当预测到磁盘失效的时候,用户可修改的策略机制能够先行将数据迁移到其它磁盘。这减少或消除了重构的必要性。
Xiotech的Emprise 5000(也叫ISE)架构能够主动或者被动提供存储的自主自愈。ISE的预防和修复性部件修复工作在它的封闭DataPac存储容量模块内部。它不需要手动抽出损坏的磁盘。ISE在需要的时候能提供自主数据迁移,重上电,工厂翻新和部件重调;相对于整个磁盘的重建,只有受到影响的磁头和已经分配的空间会通过快速的并行进程来进行重建。得到的结果等同于工厂翻新磁盘,只有无法修复的部件才会被退出服务。其它的部件都会被恢复到完全的功能和性能。
自主自愈工作得如何
根据客户访谈和厂商的服务历史记录,自主自愈系统工作的不错。数字显示RAID数据重建和服务电话减少了30%-50%。对Arato和Xiotech来说,从来都没有更换硬盘的服务请求,因为他们有原位失效技术。
(点击查看大图)
原位失效
原位失效是个比较新的概念,它的目的是解决存储系统中热拔插和热替换硬盘的一些问题。这些困难的副作用包括插入了错误的硬盘型号造成意外的数据丢失;替换失效硬盘不及时,造成重建被推迟而提高数据丢失的风险;或者使用了没有被测试过的备用磁盘,从而引起出现第二块磁盘失效。
原位失效的基本思路是将最小的现场更换部件(FRU)从硬盘重定义并扩大为存储组。一个存储组是一组协作的磁盘,他们有一部分的容量被预留做替换用途。失效磁盘通过分配的空间进行自动重建。
目前只有两个厂家提供原位失效存储系统:Atrato(他们的V1000)和Xiotech(他们的Emprise 5000或ISE)。两套系统都支持端到端的错误检测和纠正,以及自主自愈。
两个厂家的产品架构都是基于将可用用户容量和机框作为单个现场更换部件的生命周期紧密联系的概念。机框的生命周期是指其内部的原始容量能提供给应用使用的时间段。机框的全部容量包括了其生命周期内预期需要的替换容量(Atrato三年而Xiotech为5年)。
两种实现方式之间的区别则体现了他们不同的产品理念。通过他们的ORT,端到端错误检测和纠正,自主自愈,高密度机框,以及很巧妙的控制震动和热量的手段,Atrota把2.5寸SATA驱动器变为企业级。他们通过在3U机框中集成160块磁盘来提高性能,单机框容量为80T,能提供12,500 IOPS和1.5GBps吞吐量。
Xiotech则专注于用3.5寸和2.5寸企业级光通道和SAS磁盘提供更高的可靠性和性能。基本的现场替换部件DataPac在3U空间中封闭了10块3.5寸或者20块2.5寸光通道或者SAS磁盘,提供最多16TB。每一个ISE有两个可替换DataPac,电源和散热部件,96个小时的备用电池以及主-主备份的RAID控制器。不像标准的存储子系统,ISE DataPac包括很多创新,包括一套复杂的降低震动和改善散热的方法;Xiotech充分开发了其所有部件内部结构来利用非常高级的磁盘和系统遥测技术。DataPac驱动器内置了特殊的固件,从而避免了其它存储系统中需要的设备兼容性问题。对DataPac内部tightly knit控制的结果就是得到了一个非常可靠的“超级磁盘”,其可靠性相对于典型的存储系统磁盘框有超过100倍的提高。(基于Xiotech对208个ISE及其内部的5900块磁盘历时15个月的测试,没有返修事件)
原位失效能工作吗?
Atrato和Xiotech已经证明原位失效是可以工作的。他们的产品测试和客户反馈表明这些技术能完全消除所有的更换磁盘的服务请求。这意味着更低的成本,更低的数据丢失风险和更少的应用中断。
自愈存储系统完美地解决了数据中心的实际运营问题。它减少了服务事件,成本,管理工作,数据丢失风险和应用中段。而更重要的是,它能工作。从现在起10年后,自愈系统将像现在的RAID一样被认为是最基本要求。
(点击查看大图)
作者
相关推荐
-
自愈存储(一)
存储的基础构建正在发生根本性的转变,它就像20年前RAID刚出现时候一样具有颠覆性。这个革新性的发展通常被称为“自主自愈存储”,它给磁盘系统带来前所未有的高可靠性。
-
分析:重复数据删除技术的劣势
复数据删除是目前存储行业最热门的技术之一,用户和厂商们都很看好这种技术。有的厂商在开发硬件,有的厂商在开发软件,还有的厂商同时开发相关的软件和硬件。
-
从央视新址工地大火谈到企业灾难恢复(一)
2月9日晚8时,央视新址附属文化中心工地发生火灾,北京市委书记、市长迅速赶赴现场指挥扑救。至10日凌晨2时大火全部扑灭。7名消防人员因烟熏导致呼吸系统受伤……
-
重复数据删除技术弱点大剖析
本文讨论的是数据不定期损坏的问题,并非一定会发生,即使是发生数据损坏事故的概率远低于廉价SATA的高端企业光纤信道驱动器也不能例外。