剖析SAN常见的十六大问题与解决方法
SAN可能十分复杂且不稳定。尤其是管理不善的时候更是如此。解决这一问题并非易事,因为良好的设计并不总能轻易达成,而且FC标准松懈,使互操作性也成为一个问题。本文首先回顾常见的SAN问题,阐述如何诊断这些问题,并且针对如何在第一时间防止这些问题,给出一些建议。
一个复杂的存储网络可能出现大量问题。根据问题征兆,将问题范围缩小为下述某个问题,可以更快地发现并解决问题。所有的故障可以归类为以下某个问题:
兼容性问题
尽管FC SAN已经存在15年甚至更长时间了,但并非所有的设备都能彼此兼容。许多SAN问题通常由组件互不兼容引起。所有的存储供应商都会发布一定格式的支持模式,记录已经测试并支持的配置选项,包括存储阵列微代码、SAN交换机固件和主机硬件/软件的配置选项。
超过容量极限
显而易见,饱和的SAN端口会引起各种问题,这些问题可能转化为晦涩难懂的应用程序问题。通常,很容易检查SAN中的主机或存储端口,也很容易判断端口是否处于100%忙碌状态,但是很难判断负载过重的交换机内链路(ISL)是否为罪魁祸首。有时候I/O本身不是问题,相反,网络中的扇出率(分配给存储端口的HBA数量)、交换机数量等超过限制时,可能引起连接问题。
配置或分区错误
分区不佳或不当可能是最常见的SAN问题之一。这可能是因为我们经常更改SAN分区。也可能是因为分区包括16位十六进制的全域名(WWN)。
怪异的连接和电缆
网络电缆发生故障时,似乎不会完全失效。相反,只是缓慢地、间断性地失效。在慢慢失效的过程中,它们令应用程序和管理员非常恼怒。
存储阵列配置问题
每种存储阵列的管理方式都有一定差异,但是具有一些共同的基本概念。例如,必须通过前端SAN端口,为主机HBA创建和分配逻辑单元数(LUN)。这类问题通常是由于存储管理员在配置阵列时出现打字排版错误。
主机配置问题
服务器可能出现许多问题。大部分SAN组件都可能如此,包括卷管理器、操作系统、多路径软件、HBA驱动器、HBA固件和HBA硬件。这些组件必须根据存储供应商的说明书加以配置,否则你就可能遇到麻烦。
SAN硬件故障
我有意将硬件故障放在常见SAN问题清单的最后,因为我们通常会最先检查硬件,硬件很少会成为问题。目前,SAN硬件已经相当可靠,不过还是会偶尔出错。影响主机访问的常见故障为SPF端口故障、端口卡故障以及交换机故障。
判断问题
发现并解决SAN问题需要明确了解自己想要什么样的配置,以及期待系统具有什么样的行为。发生问题时,排除功能正常的组件,将问题范围缩小到基本领域:SAN、主机和存储。问自己这些问题:
是SAN的问题吗?
SAN近期是否发生了变化?询问一下,检查SAN日志,将正在运行的配置选项与文档记录相比较。问题是否为相关的SAN报告事件或错误?查找发生故障的端口、最近的端口注销情况或网络重建情况。
是主机的问题吗?
其它主机能否明白我们所讨论的存储?本台主机能否明白其它存储?HBA是否登录网络?最近,主机是否曾发生变化?主机系统消息日志中是否有和SAN相关的消息?
是存储的问题吗?
其它主机明白所讨论的存储吗?存储端口是否登录网络中?最近存储阵列有没有发生变化?存储阵列日志是否报告错误?
检查支持模式
定期审核存储模式,检查你的配置情况及所支持的内容。生产商通常会发现新的错误,并采用新代码加以修改。让你的软件处于最新版本,这样可以避免许多问题。
记录SAN
为了发现并解决问题,了解设计意图,这项工作很麻烦,也很重要。确保文档记录了主机、HBA、WWN和连接状况。应该包括存储、存储端口及其WWN。最后,SAN文档应该描述网络、ISL、域组、域和域数。
华辉联盟 发表于: 2009-11-27
我要回答相关推荐
-
企业存储系统新旧大比拼
传统的外部存储系统主要有两种类型:网络连接存储(NAS)和存储区域网络(SAN)。而云计算和对象存储的兴起促成了软件定义存储的出现。
-
ScaleIO 软件定义平台推出节点设备
ScaleI将推出将软件定义存储与贴牌EMC的商用服务器以及Arista网络交换机结合的节点设备。
-
VSA,SDS,DAS:服务器附加存储的概念和产品
传统的DAS、NAS和SAN就像一个彩色转盘里的红、黄、蓝三种颜色。而软件定义存储(SDS),数据定义存储(DDS)和对象存储则是根据这三种基本色进行不同程度的混合。
-
服务器存储归来
随着近年来各种存储技术的出现,存储架构师在构建理想的存储方案时有了更多的选择。过去大家根据DAS、NAS和SAN的各自特点来规划企业存储系统,而今天,软件定义存储受到了更大的关注。
-
什么是对象存储?
当前,无论成熟厂商还是新兴厂商的对象存储解决方案都已达到相当成熟度,使得IT部门开始考虑如何在自己企业中实现对象存储。