11日下午2点到12日下午4点,艺龙旅游网出现了持续的访问故障。据了解,该事件最初是EMC存储设备出现故障,而由于艺龙网的存储结构不完善导致长时间无法修复。
此次事件在互联网行业的系统架构领域引发了很多的讨论,艺龙因为这次宕机事件,其网站服务和呼叫中心业务也无法进行,据一些媒体计算,艺龙网这次直接损失超过14.7万营业收入,而其对客户造成的潜在影响无法估计。
EMC存储出现问题引发连锁反应
11日下午,不断有网友反应艺龙网访问出现错误,很快,官方就出现了“系统故障,正在修复中……”的提示。对于这家以网站和呼叫中心为主要经营窗口的企业来说,此故障直接影响到业务运营。
12日早上8点,艺龙CEO崔广福表示,艺龙的存储系统出现故障,导致全部服务中断,崔广福称艺龙和EMC的工程师已抢修18个小时。
至此,不少目光集中在EMC公司上,艺龙网使用的存储产品由EMC提供,据接近现场人士透露,此次宕机也的确是存储硬件出现问题,导致数据库挂机,系统恢复需要较长时间造成。
12日下午呼叫中心恢复机票服务,网站服务等在4点开始恢复,到18点全部业务恢复运营。
备份架构不完善导致维修时间较长
对于艺龙网这次出现问题的原因一时众说纷纭,在不少人认为EMC硬件出现问题时,一些企业技术架构人员开始声援EMC。
丁香园网站CTO冯大辉在微博表示,EMC的产品不会持续到几十个小时恢复不了,而一位网友也提到,“做为EMC的竞争对手也不得不说,这不只是硬件的问题”。
IT服务公司中达金桥的孙巍表示,他在12日到现场参与系统恢复。从他的复述中得知,EMC存储硬件出现故障引发了整个事件,而由于艺龙对数据库的备份不足,存储层没有灾备方案,导致系统恢复缓慢,虽然硬件很快恢复正常,系统仍然无法工作。
据深入介绍,企业在运营平台的系统设备架构中,为了应对突发硬件、软件故障,一般需要对各个层级的系统进行备份,比如在服务器端使用双机热备,在存储层完成灾备,在软件层做冗余工作。这样任何一个环节出现问题都可以及时找到替代。
而在艺龙的事件中,艺龙的存储架构只预备了高性能架构的集群备份,灾备的准备依赖唯一的存储硬件,软件层也缺少冗余准备,这样存储出现问题,事先准备的灾备准备也就不起作用。
“把所有鸡蛋都放在一个篮子里,篮子出了问题,鸡蛋就全碎了。”孙巍这么形容。
存储行业的一些厂商人士在微博上纷纷表示,硬件不可能保证100%数据安全,要硬件保证不出现问题是不可能的,企业需要在架构上减少硬件出错对企业运营的影响。
到截稿为止,艺龙和EMC并没有回复关于此事技术过程的疑问。
艺龙再次停机升级或为加强存储系统
14日凌晨,艺龙网再次宣布停止运营7个小时,以实现系统升级。此前崔广福在微博上发出“英雄帖”,邀请咨询师、方案服务提供商、专家等为艺龙数据中心系统构架、灾备方案及运维管理会诊。这也说明艺龙对此次事件的重视。
业界人士认为,对于一个在线服务提供商,时刻在线和稳定性成为消费者一种信赖和依靠,而出现系统完全停止服务将对客户感受造成较大的影响。
据存储技术人士透露,主要的容灾技术结构已经完善,各个单位采用不同的架构主要原因还是因为成本问题。
也有人认为,这次的事件对于灾备行业来说将是一次促进,企业和政府单位在认识到意外发生的结果后会加大数据系统的投入。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
视频:存储容量分配详解
这个技巧提供了五种在当今复杂存储环境中最高效管理存储容量的技巧。这些技巧包含了存储容量分配效率,其中涵盖了如何避免存储相关宕机的建议。
-
一次Solaris9 SVM SUN CLUSTER EMC存储 扩容实施总结写的方案
一, 扩容目的现有/zxme/nas文件系统空间不能满足业务需求,需要扩大该文件系统空间。当前该文件系统情况: […]