存储极客
与你分享存储里的那点事儿
在之前的《存储极客:这些硬盘参数你都懂吗?(上)-从案例引发的讨论》一文中,我们从用户实际需求出发,围绕下面2个表格对不同硬盘的性能和可靠性差距展开了部分讨论。其中包括但不限于这几个要点:
1. 振动对硬盘的影响及防范
2. 可靠性前提条件和NL硬盘的由来
– 小知识:硬盘读写负载与SSD擦写寿命
3. 环境规格——温湿度范围
4. MTBF不是虚标:换算出年均故障率
理想很丰满,现实有时却骨感
在谈到MTBF(平均无故障时间)和AFR(年均故障率)两个指标时,也许有的读者会说:“我使用的硬盘比这个故障率要高啊?”这种现象确实存在的不少,比如我国南方空气湿度偏高,电子设备受到氧化、腐蚀的速度会加快。硬盘厂商给出统一的数字,是要在推荐的环境范围内,并且系统设计(特别是机箱结构设计)要达标。
这里我又想起10年前参加过的一次Intel ESDC(服务器系统设计峰会),工程师在上面讲针对一款机箱振动的验证测试,印象中是2U 12个1500转3.5英寸硬盘。结果台下另一位Intel其他部门的同事就提出疑问,表示实际共振情况没有这么理想,随机访问性能会下降20%。据此大家就不难理解我在上文中引用“15K硬盘能够达到21 rad/sec/sec”的用意了吧?
要想把硬盘用好,获得理想的性能和可靠性,还有许多要注意的问题。接下来我们再此列出《上篇》中的表格,并继续之前的讨论。
5.视频监控写入负载是否会超标?
我们根据硬盘每年的读写负载,计算出550/300/180/55TB对应到平均每天就是1.51/0.83/0.49/0.15TB,平均每秒大约17.5/9.6/5.67/1.74MB。回到本文上篇中那个数据备份的需求,每天写入不到1TB的数据,使用Enterprise Capacity这个档次的Nearline硬盘比较合适。
这里我还有一点疑问:视频监控应用是比较典型的多流写入,而且7×24小时连续工作,在一个系统中为了应对单盘故障RAID保护又是有必要的。首先,年负载55TB的桌面硬盘很容易超标;其次,如果有高清监控且需要保留时间较短的场合,每块硬盘平均写入速度超过5.67MB/s,是否将年负载180TB的监控盘换成550TB的Nearline硬盘更合适呢?
我也曾咨询过硬盘厂商的工程师,如果超出建议负载较多其故障率会高于标称的AFR(监控盘为0.88%),而且Enterprise Capacity(ES)的AFR设计标准本身就低至0.44(8TB)~0.63%,可以降低后期维护的成本和数据丢失风险。
至于“云盘”,其平均故障率监控盘还要高些,只要不在意也可以用吧?
当然这里面还有成本的因素,Enterprise Capacity的公开报价是7200转盘里面比较高的。由于视频监控在国内的市场巨大,像海康、大华这样的厂商在监控硬盘上估计有较大的议价能力。
6.盘位数支持与箱体结构要求
在每个机箱支持的盘位数上,最新资料4TB及以上写的都是“8+”,而我们在另一份早些的希捷监控硬盘资料中看到了这样的描述:
在视频监控环境中,非RAID应用顺序(I/O)使用模型下盘数不限。(取决于箱体结构)而监控硬盘在RAID应用中建议≤16盘位。究其原因,如果做了RAID,硬盘磁头容易按照同样的轨迹来运动。这时共振的影响应该会有所加大。
回到我们引用的那个英文表格,Enterprise Capacity系列硬盘支持大于8盘位的部署,在有的机箱中甚至支持84、90这样的盘位。
扩展阅读:《高密度盘柜难点:评戴尔SCv2080结构设计》
根据我的理解,ENAS系列虽然抗旋转振动能力与Enterprise Capacity相同,但由于其主要定位中小型设备,只建议配置不超过16盘位,对机箱结构要求相应放松。经济型Constellation CS主要针对互联网等大型分布式环境,其中定制系统相对偏多,需要适应各种不同需求,因此抗旋转振动也达到了12.5 rad/sec/sec。
7.不可恢复读错误:NL盘表现居中
不可恢复读错误可以理解为磁介质上静态数据损坏的比率,由于这个数值比较固定,随着单盘容量增大在一块盘上遇到错误的几率也越来越高。我们注意到,Enterprise Capacity和ENAS的该项指标比10K、15K高转速SAS硬盘高一个数量级,但比桌面和其它“准企业级”硬盘还是要低一个数量级的。
对于监控硬盘,资料显示目前只有8TB型号可以达到1 per 10E15。由于目前桌面硬盘的容量只达到6TB,那么8TB监控盘有可能与Enterprise Capacity出自同一平台。
由于不可恢复读错误可能在RAID Rebuild时才暴露出来,RAID卡、磁盘阵列控制器普遍设计了后台介质扫描的功能,而有些廉价视频监控设备使用的软RAID就不好说了。此外,EMC等存储厂商还使用非标准扇区(从传统512byte增大到520byte)加入校验实现容错。
8.NL-SAS并不只是“假SAS”硬盘
主机接口方面,7200转硬盘中只有Nearline(Enterprise Capacity)系列具备SAS版本。除了SCSI协议的完整性之外,最重要的是提供双端口支持,在那些双控磁盘阵列中SATA驱动器还得加个转接板就不划算了。而且,也只有SAS接口硬盘才能兼容520/528这些非标准扇区大小。
在质保年限上,桌面硬盘目前执行2年;Enterprise Capacity、NAS与高转速SAS同为5年;表格里对比的其它7200转硬盘基本上是3年。根据经验,质保5年的硬盘设计寿命一般在8-10年,如果超出5年使用故障率会提高;同理,普通7200转硬盘的设计寿命通常也有5年,缩短保修时间也有降低服务成本的考虑。
至此,我们看出ENAS系列应该是由Enterprise Capacity近线硬盘“降级”而来,它们之间的定位可以从开头表格中的组件级差别上看出来。比如:两者都使用了相对较好的高通量密度音圈磁头,而读写头和盘片ENAS为Performance而Enterprise Capacity采用High Performance等级。总之结构决定性质,只是我们在本文中并不都需要深挖。
9.性能增强新技术:Flash缓存、掉电保护
在硬盘上添加少量闪存的固态混合硬盘(SSHD),希捷最早推出消费级产品,并于后来引入到企业级市场(只限10K高转速SAS盘)。客观地说其市场空间不大,因为在混合阵列上可以做SSD+HDD之间的分层存储,混合硬盘用于服务器也要看应用能否发挥其优势。
不过加入Flash之后带来了另外一个用途——掉电保护。我们知道早期硬盘上DRAM缓存中的数据断电就会丢失,所以对数据一致性要求高的应用通常会选择在RAID卡/阵列控制器上关闭硬盘自身的写缓存。如今则可以利用电容和盘片旋转的势能将DRAM写缓存区的数据写到闪存中。
对于没有Flash缓存的Enterprise Capacity,希捷在最新一代8TB型号上内置了2MB NOR闪存,用于掉电时备份写缓存数据,因此可以打开WCE(Write Cache Enable),大幅提升随机写性能——IOPS 342明显超出读IOPS 164(队列深度16)。
据了解,HGST企业级硬盘采用了另一种技术来达到同样的目的——开辟一小块磁道做为将随机写I/O变成顺序写入的缓冲区。
10.硬盘厂商怎么说?
]
其实希捷官方也做了监控专用硬盘和企业级3.5寸海量盘的对比。首先,监控盘“划算”就是在谈它的性价比;而性能、节电模式/响应时间、写入负载、抗振动、SAS接口支持和质保期限上Enterprise Capacity都更胜一筹,具体的技术我们都已讨论过。
11.更多选购要点:系统设计和兼容性
以上写了这么多硬盘自身的特性,其实同样的盘用在不同系统上其可靠性表现也可能会有不小的差距。
比如散热设计,我认为正规一些的服务器、存储厂商,测试每个盘位上承载最大功耗硬盘时的满负载工作温度,应该是比较基本的要求。对于一线品牌,安装各种转速硬盘时产生的线性、旋转振动值是否超标,估计也在结构方面的测试项目中。用软件仿真和实测可以做为互补,通过这些评估工作可以看出机箱、硬盘托架等有无改良空间,能够支持的硬盘范围等。
举例来说,像4U 60盘位及更高密度的机箱,我看各家基本都不支持15K高转速硬盘。如果支持2.5寸10K硬盘,在这里也是不应该按经验“拍脑袋”决定的。
再比如前几年,某公司进入企业存储领域时间尚短,其硬盘故障率偏高,也是投入了不少资源来改善。
另一方面,从EMC、戴尔等厂商采购的硬盘,与渠道市场中的相同型号也有些区别。定制的Firmware版本只是一个表象,兼容性测试也是很重要的工作。因此大家最好还是按照系统厂商的建议来选购硬盘,如果一时贪图便宜导致数据丢失就得不偿失了。
我们建议,如果您没有条件计算读写负载,或者不确定服务器/存储机箱本身消减振动的能力,选择一款规格较高、有裕量的硬盘相对比较保险。比如本文对比中的Nearline硬盘Enterprise Capacity(ES)系列或者其他品牌的同级产品。
终于到了这两篇的结尾,我想说一句:“写硬盘很累”,而硬盘读写数据也是有一个“疲劳磨损”的过程,希望能够引起人们对可靠性的关注。尽管这是我熟悉并关注近20年的领域,为撰写本文还是查阅、整理了大量资料。总之希望对大家有所帮助,同时也欢迎各路高人批评指正!
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Dell EMC合并一周年回顾
在并购交易结束12个多月后,我们的专家对Dell收购EMC ,有史来最大的存储技术合并进行了评估。
-
存储极客 | 这些硬盘参数你都懂得吗?
目前硬盘行业总体营收受SSD冲击开始出现一定下滑,但若干年内仍将保持可观的需求,特别是大容量型号的性价比优势。而且这一市场已经由于成熟而细分
-
存储极客 | PCIe Switch高级功能及在Dell PowerEdge FX2平台的应用
PCI-E Switch作为最先进的生产力,已经被广泛应用在了传统存储系统,以及少量品牌/型号的服务器平台。
-
纹秤对弈VDI:超融合赢了传统存储
在并购了业内领先的瘦客户端、零客户端及云计算解决方案供应商Wyse之后,加上与VMware和微软的紧密合作,戴尔能够提供完整而丰富的端到端VDI方案,这一点是许多超融合/ServerSAN厂商所不具备的。