检查表:八步全自动搞定存储故障

日期: 2008-01-01 作者:Brett P. Cooper 来源:TechTarget中国

希望能够自动确定并解决问题的存储管理员有两个选择:   增加预算并购买一套软件和一系列服务来提供这方面的功能,或者利用工具中的方法来提供能够在问题变成麻烦之前自动地处理这些问题的服务。   这里有八个步骤,希望能够让你按图索骥,找到解决问题的方法,摒弃那种花钱费力还不一定能解决问题的做法。    全自动搞定存储故障                                 第一步:识别问题所在——如果有问题的话。                                      ……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

希望能够自动确定并解决问题的存储管理员有两个选择:

  增加预算并购买一套软件和一系列服务来提供这方面的功能,或者利用工具中的方法来提供能够在问题变成麻烦之前自动地处理这些问题的服务。

  这里有八个步骤,希望能够让你按图索骥,找到解决问题的方法,摒弃那种花钱费力还不一定能解决问题的做法。

   全自动搞定存储故障                  
           
  第一步:识别问题所在——如果有问题的话。                  
           
        你可以选择对你的数据中心进行一次全面的评估,或者你可以从有数据库的地方开始评估,或者从中间的其它地方开始。一旦你决定了检查的范围,你就可以开始了。你需要知道哪个硬件(包括通过SAN连接的硬件和直接连接的硬件)出故障了。你可能会既高兴又惊诧地发现你居然有如此多的存储设备。

        第二步:研究故障。
                  
  当交换机报告一个利用高端口的故障时,一个帮助台标签会被创建。可惜,这通常在凌晨两点,并且数据中心里没有人来帮助你诊断这个故障。因此,你必须跳上车赶过去,或是拨到你的虚拟专用网(VPN),并研究这个故障。然后你发现这个故障的时间似乎很熟悉。似乎备份工作在每晚的这个时候开始。但你查看备份报告工具时,磁带正在工作而且所有事情看起来都很好。

  如果备份报告工具在这时显示了备份工作失败的信息,你也许从这个故障中找到症状表现,从而引起警惕并采取措施以期能在未来解决这个问题。
                  
  第三步:制定纠正故障的措施。                  
           
  第二天上午,在睡了几小时并喝了一杯咖啡后,你回到办公室给你们组的人解释当时的情形。如果这是一个确实的警告,那么这个组要共同决定一个纠正的措施。这可以采取以下形式:为交换机增加更多的吞吐容量,中断备份工作,改变时间表,或者仅仅提高交换机端口的吞吐极限。时间和故障都应是对问题的自动回应的一部分。                              
  第四步:将解决办法和故障表现记录到知识库。                  
           
  定义一个存储管理政策的最好方法就是考虑在日常存储环境(包括磁盘、磁带、交换机、主机和应用程序)的操作中发生的故障。然后你可以考虑这些故障和警告是怎样发生的以及工作组是怎样处理每个故障的(从确定故障到解决问题)。我把这些故障和警告看作是故障表现,把解决问题的措施看作是初期的存储管理政策。我必须说这种方法对我非常有用:“从实践成为措施。从措施成为政策。”    

        第五步:这个故障重复出现。现在怎么办?           

        从知识库中查看你记录的第一次发生时的解决办法,并按照记录的步骤解决这个故障。如果故障的表现是不同的,那么研究这个故障并提供一个解决办法。                              
  第六步:回到故障解决模式。                  
           
  第二天,你应该检查故障表现来确认那是否是相同的情况。这可能是一个重现的故障,这要求通过过滤技术来将这个假故障从警告系统中移除,或者改变产生故障的基础设备或交换机的极限。  

     第七步:如果故障反复发生,用一种简单的脚本来自动回应。                  
           
  现在你是这种故障的熟练工,你可以写出回应内容的脚本或筛选出针对这种类型的故障所使用的解决办法。                  
           
  第八步:继续监控和训练。                  
           
  用这种方法培训你的全体员工,包括新员工。

  最后,如果这样可以使你多睡几小时并使你能将宝贵的时间集中于那些真正重要的事情上的话,那么你正在做正确的事,而且能够继续做更大的事。

  目的:阻止你的工作组总是解决那些并不是真正问题的问题,这样他们才能集中精力于手边的真正的大问题。

相关推荐

  • AI存储管理照进现实

    编者注:这个AI存储管理专栏是《Storage》杂志和TechTarget撰稿人Jon Toigo在2019年 […]

  • 存储硬件独立宣言

    最近数据存储方面的动静好像都围绕着容量和性能,有少数时候会涉及如在线去重复和阵列间复制及镜像等增值功能。

  • Oracle ZFS存储系统

    Oracle ZFS Storage使用机械式和闪存存储。ZS3-2和ZS4-4提供各种软件用于存储管理、加密以及安全。

  • 存储管理理应获得重视

    存储管理已经被忽视多年,不过众厂商又开始重新发力存储管理软件的开发。存储管理逐渐获得应有的重视。