发现并解决SAN性能问题

日期: 2009-02-04 作者:Brian Peterson翻译:周姝嫣 来源:TechTarget中国 英文

SAN可能十分复杂且不稳定。尤其是管理不善的时候更是如此。解决这一问题并非易事,因为良好的设计并不总能轻易达成,而且FC标准松懈,使互操作性也成为一个问题。本文首先回顾常见的SAN问题,阐述如何诊断这些问题,并且针对如何在第一时间防止这些问题,给出一些建议。

  常见问题   一个复杂的存储网络可能出现大量问题。根据问题征兆,将问题范围缩小为下述某个问题,可以更快地发现并解决问题。所有的故障可以归类为以下某个问题:   兼容性问题   尽管FC SAN已经存在15年甚至更长时间了,但并非所有的设备都能彼此兼容。许多SAN问题通常由组件互不兼容引起。

所有的存储供应商都会发布一定格式的支持模式,记……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

SAN可能十分复杂且不稳定。尤其是管理不善的时候更是如此。解决这一问题并非易事,因为良好的设计并不总能轻易达成,而且FC标准松懈,使互操作性也成为一个问题。本文首先回顾常见的SAN问题,阐述如何诊断这些问题,并且针对如何在第一时间防止这些问题,给出一些建议。

  常见问题

  一个复杂的存储网络可能出现大量问题。根据问题征兆,将问题范围缩小为下述某个问题,可以更快地发现并解决问题。所有的故障可以归类为以下某个问题:

  兼容性问题

  尽管FC SAN已经存在15年甚至更长时间了,但并非所有的设备都能彼此兼容。许多SAN问题通常由组件互不兼容引起。所有的存储供应商都会发布一定格式的支持模式,记录已经测试并支持的配置选项,包括存储阵列微代码、SAN交换机固件和主机硬件/软件的配置选项。

  超过容量极限

  显而易见,饱和的SAN端口会引起各种问题,这些问题可能转化为晦涩难懂的应用程序问题。通常,很容易检查SAN中的主机或存储端口,也很容易判断端口是否处于100%忙碌状态,但是很难判断负载过重的交换机内链路(ISL)是否为罪魁祸首。有时候I/O本身不是问题,相反,网络中的扇出率(分配给存储端口的HBA数量)、交换机数量等超过限制时,可能引起连接问题。

  配置或分区错误

  分区不佳或不当可能是最常见的SAN问题之一。这可能是因为我们经常更改SAN分区。也可能是因为分区包括16位十六进制的全域名(WWN)。

  怪异的连接和电缆

  网络电缆发生故障时,似乎不会完全失效。相反,只是缓慢地、间断性地失效。在慢慢失效的过程中,它们令应用程序和管理员非常恼怒。

  存储阵列配置问题

  每种存储阵列的管理方式都有一定差异,但是具有一些共同的基本概念。例如,必须通过前端SAN端口,为主机HBA创建和分配逻辑单元数(LUN)。这类问题通常是由于存储管理员在配置阵列时出现打字排版错误。

  主机配置问题

  服务器可能出现许多问题。大部分SAN组件都可能如此,包括卷管理器、操作系统、多路径软件、HBA驱动器、HBA固件和HBA硬件。这些组件必须根据存储供应商的说明书加以配置,否则你就可能遇到麻烦。

  SAN硬件故障

  我有意将硬件故障放在常见SAN问题清单的最后,因为我们通常会最先检查硬件,硬件很少会成为问题。目前,SAN硬件已经相当可靠,不过还是会偶尔出错。影响主机访问的常见故障为SPF端口故障、端口卡故障以及交换机故障。

  判断问题

  发现并解决SAN问题需要明确了解自己想要什么样的配置,以及期待系统具有什么样的行为。发生问题时,排除功能正常的组件,将问题范围缩小到基本领域:SAN、主机和存储。问自己这些问题:

  是SAN的问题吗

  SAN近期是否发生了变化?询问一下,检查SAN日志,将正在运行的配置选项与文档记录相比较。问题是否为相关的SAN报告事件或错误?查找发生故障的端口、最近的端口注销情况或网络重建情况。

  是主机的问题吗

  其它主机能否明白我们所讨论的存储?本台主机能否明白其它存储?HBA是否登录网络?最近,主机是否曾发生变化?主机系统消息日志中是否有和SAN相关的消息?

  是存储的问题吗

  其它主机明白所讨论的存储吗?存储端口是否登录网络中?最近存储阵列有没有发生变化?存储阵列日志是否报告错误?

  检查支持模式

  定期审核存储模式,检查你的配置情况及所支持的内容。生产商通常会发现新的错误,并采用新代码加以修改。让你的软件处于最新版本,这样可以避免许多问题。

  记录SAN

  为了发现并解决问题,了解设计意图,这项工作很麻烦,也很重要。确保文档记录了主机、HBA、WWN和连接状况。应该包括存储、存储端口及其WWN。最后,SAN文档应该描述网络、ISL、域组、域和域数。

  SAN的基本性能

  除非你每天都记录所发生的一切,否则就很难判断正处于忙碌状态的端口是否正常,是否为问题根源。至少应该记录SAN中每个端口的平均利用率。

  有计划地更改

  为了避免管理员引起突然断电,在变化发生之前,利用SAN文档定义各种变化。如果你的决策是关于执行变化时应该做哪些事,那你就错了。同样,很容易忘记在变化发生以后,记录变化。

  备份配置选项

  每天,当SAN发生变化以后,将交换机的配置选项备份并安全存储。这样,就能确保如果交换机在SAN变化期间发生故障或完全混乱,你可以快速从备份中撤销变化。这种情况经常发生,真的遇上时,你会很庆幸自己已经备份。

  掌控了一些事情以后,发现并解决SAN问题就不再是问题。每天都思考最佳策略,万一真的出现问题,也能防止其成为大问题。

相关推荐