在一些知名的微博上,#fail是一个标签,当你的生活或者工作出现问题时你可以记录下这串字符。那么,你该如何在存储基础设施上避免记录下#fail呢?最重要的事情是要未雨绸缪。
你所从事的IT业是一个关注何时出现问题远胜于关心哪些地方出现了问题的行业。你首先需要为基础设施内存在的问题做好准备。不管你是尝试自己解决问题,还是邀请专家来解决,首先都要对你的现有设施进行盘点,然后才能开始诊断。
对于你的数据中心来说,不是仅仅花几个小时列出一份清单就可以了。作为一个良好的开端,让人解决问题首先需要提供细节。这些细节包括每一个HBA卡,交换机端口,交换链路(ISL),存储端口如何配置等等,当然还包括存储产品本身是如何配置的。
如果这些信息能够被分析工具频繁捕捉下来的话是最好的(换句话说,不要使用电子表格)。电子表格并非专业的IT诊断工具。我们曾经看到过一个故障排除项目,从其开始服务器虚拟化项目以后,其电子表格清单已经有超过6个月没有更新。要知道事情发生了变化。坦率地说,如果你的信息清单已经有几周没更新了,特别是在一个虚拟环境下,那么你应该更新一下,不要怕麻烦。重新编制好的清单可能需要执行,所以你最好在环境出现问题的时候做一下预算编制。实时采集的价值在于其可以提供出现故障时环境变化的线索。这些变化通常可以提供出错线索。通常,这些工具可以捕获记录于系统上的物理错误,并可以提供一些分析。但最重要的是,实时捕捉可以帮助您在发生前防止#fail。
对于大多数基础设施硬件的问题而言,存储硬件和其软件组件的问题不在于他们没有提供足够的诊断信息,而是他们提供的太多,因此,重要的信息就会在这其中被错失。这些分析工具可以将确实需要注意的信息,或同问题相关的消息突出。当然,如果要解决一个存储难题,在制作一个精确的报表以外还有很多工作要做。但是,解决问题的第一步在于,知道你要做什么。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
别再犯错 数据中心70%故障是人为造成
在导致数据中心故障的所有罪魁祸首中,技术问题所占比例很小,而人为错误却占据了大约70%的份额。本文就一些个人常见的错误做了以下总结,给大家提前敲响警钟
-
检查表:八步全自动搞定存储故障
希望能够自动确定并解决问题的存储管理员有两个选择:要么花钱,要么利用工具搞定它,这里我们列出了八个步骤……