故障转移与数据存储性能瓶颈查找(上)

日期: 2009-10-21 作者:Carol Sliwa翻译:涂凡才 来源:TechTarget中国 英文

绝大多数数据存储性能瓶颈都是由阵列前端端口、控制器和磁盘驱动等引起的。要解决性能瓶颈并不是什么难事,真正的困难在于如何找出导致性能低下的症结。 虚拟服务器技术进一步恶化了这个问题,尤其是当应用、服务器之间的通信较差和存储管理员之间的交流不够时。 不过,有很多工具可以精准地定位存储性能瓶颈,其中包括存储阵列内置的一些管理工具和复杂的SRM(存储资源管理)软件或专门的性能监测应用,例如Akorri Network公司的BalancePoint和Tek-Tools软件公司的Profiler。

但是,如果你不知道该查看哪儿,这些工具也帮不上什么忙。 “这就跟寻宝一样,需要有经验的人来判断问题可能出现在……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

绝大多数数据存储性能瓶颈都是由阵列前端端口、控制器和磁盘驱动等引起的。要解决性能瓶颈并不是什么难事,真正的困难在于如何找出导致性能低下的症结。

虚拟服务器技术进一步恶化了这个问题,尤其是当应用、服务器之间的通信较差和存储管理员之间的交流不够时。

不过,有很多工具可以精准地定位存储性能瓶颈,其中包括存储阵列内置的一些管理工具和复杂的SRM(存储资源管理)软件或专门的性能监测应用,例如Akorri Network公司的BalancePoint和Tek-Tools软件公司的Profiler。

但是,如果你不知道该查看哪儿,这些工具也帮不上什么忙。

“这就跟寻宝一样,需要有经验的人来判断问题可能出现在哪儿。”Gartner集团的研究主管Valdis Filks如是说道。

数据存储瓶颈的五大常见原因

1. 虚拟服务器是一个很好的技术,但是它也会滋生一些新的不同的存储瓶颈问题。很多人都容易犯一个共同的错误,那就是在一台虚拟服务器环境下创建过多的虚拟机,从而导致存储瓶颈的出现。Taneja集团的一位高级分析师兼顾问Dave Bartoletti表示,还有一个存储性能瓶颈来自于虚拟机迁移。当虚拟机从一台物理服务器迁移到另一台物理服务器时,也会造成性能瓶颈。

通常,企业可以利用Vmware公司的VMotion手动迁移虚拟机,或者利用它的DRS(distributed resource scheduling)功能自动迁移虚拟机。Bartoletti说,管理员可以设置DRS,不让任何服务器的CPU和内存利用率超过一定值,比如说CPU不得超过60%,内存使用不得超过75%。如果其中一项超过了规定的使用率,则自动平衡虚拟机负载,或者将虚拟机迁移到负载较轻的服务器上。虚拟机迁移到其他主机服务器上之后,它可能通过不同的LUN(其他主机访问存储所使用的LUN)访问存储。

“如果你的虚拟机数量超过了原计划的虚拟机数量,损坏了某个存储控制器,存储管理员有可能不知道怎么回事。”Bartoletti说道。

他建议,管理员最好算算每个阵列可以支持的虚拟机数量,以及磁盘的读写性能。因为,根据虚拟机运行的应用的不同,虚拟机所作出的请求也各不相同。物理服务器中一两个特别繁忙的虚拟机会占用绝大部分的CPU、内存、网络带宽和磁盘I/O资源。

如果其中一两个虚拟机运行了一些I/O密集型的应用,而且占用了大量的磁盘空间,那么共用同一存储的其它虚拟机将会受到磁盘I/O资源竞争的影响。据Tek-Tools公司产品经理Brian Radovich表示,这个问题比CPU或内存瓶颈更加难以发现。

“有时,20%的虚拟机占用了系统80%的资源,”他说道:“你需要利用一些工具来找出问题的根源。”

VMware公司在2007年十一月发布的Storage VMotion解决了这个问题。它可以让管理员将正在运行的虚拟机磁盘文件迁移出负载过重的LUN或阵列。在这版之前的VMotion应用可以将正在运行的虚拟机从一台物理服务器迁移到另一台物理服务器上,从而转移了虚拟机所有的内存和CPU利用。不过,被迁移虚拟机的存储还留在原来的存储卷中。

“如果一个虚拟机无法得到足够的物理内存资源,它必须转移到IOPS(每秒读写操作数)更大的磁盘中。”Brain Radovich在给SearchStorage.com的一封邮件中如是写到。他还强调,大家要理解虚拟机的内存和磁盘I/O,从而优化和减少不必要的IOPS,这一点非常重要。

Radovich说,如果同一存储中的其中一个虚拟机占用了过多的CPU、磁盘和内存资源,那么其它虚拟机中的应用则会受到严重影响。

2. 如果很多用户共同访问同一业务应用,不论是邮件服务器或是ERP(企业资源规划)系统还是数据库,大堆的请求会排很长的队,每次I/O的反应时间开始变长,短时的延迟逐渐变为漫长的等待,随之而来的将是源源不断的求助电话。

这种对反应时间很敏感的应用一般有这样的特点:请求数量多、具有随机性、读比写更多,而且I/O小。如果负载分布在很多驱动中,那情况还比较乐观。否则,带来的将是性能瓶颈。

如果某个应用的用户太多,或者随着应用的增长它需要的IOPS越来越大,那么RAID组则需要额外地添加一些驱动,或者将数据分散存储到多个驱动中。

但是,Enterprise Strategy Group Lab的技术总监Brian Garrett指出,尽管“存储经常被认为是罪魁祸首,但大多数情况下并不关存储什么事。真正的罪魁祸首可能是网络,也可能是某个应用或某台不正常的服务器。”

3. 带宽密集型应用——比如数据备份、视频数据流、安全日志。这种应用有可能同时有很多用户访问大型文件或数据流,从而造成共享瓶颈。

要想找出问题之所在,Garrett建议管理员从备份服务器着手,一直检查到驱动。因为,这条线上的任何地方都有可能出现问题。

“问题并不总是处在存储上,”他说:“它也可能是备份应用的设置问题或是磁带系统的工作方式问题。但是,备份不能完成时存储人员总会接到电话。”

如果通过排查,瓶颈是出自存储,那么它有可能是由驱动数量不够、控制器资源竞争或者阵列的前端端口带宽不足等原因造成。

性能必须根据应用负载类型的不同而作出相应的调整。Dragon Slayer Consulting公司总裁Marc Staimer说,适合大型文件和流媒体的性能不一定适合小型文件;反之,小型文件的高性能也未必能让大型文件和流媒体的性能达到最佳。

Staimer还说道:“这就是为什么大多数存储系统都倾向于寻求一个平衡,努力找到系统的最佳平衡状态。要么使吞吐量达到最佳,要么使IOPS达到最佳,不过并没有必要两个都同时最优化。”

4. RAID组的某个驱动故障。尤其是在RAID 5中,由于系统要寻找奇偶校验数据进行重建,所以系统的性能会有所下降。RAID重建会对性能造成一定的影响,而且写入比读写对性能的影响更为严重。

即便驱动故障时性能下降的根本原因,控制器也可能会成为性能瓶颈,因为在重建过程中控制器要处理数据。

5. 部署新应用时,应用所处的驱动需要处理繁忙的邮件系统。如果新应用很繁忙,邮件系统的性能将会受到一定的影响。新应用的通信最终可能会超出驱动器的承受范围。

参考阅读:IT架构中数据存储常见瓶颈

作者

Carol Sliwa
Carol Sliwa

资深编辑、作者

相关推荐