GPFS整合Hadoop,IBM的大数据分析野心不小
问:目前谈到云存储和大数据,关注的焦点有对象(目标)存储设备和Hadoop(包括HDFS文件系统)两个方面:
关于对象存储,目前有EMC Atmos、NetApp收购的Bycast、HDS HCP(Hitachi Content Platform),可以用于云存储服务商的后端;另外Dell也推出DX针对医疗等行业归档应用。IBM在这方面有什么产品或者计划吗?
开源是Hadoop的一大优势,比如EMC收购的Greenplum就在与Hadoop结合,NetApp也在研究相关方案。IBM对Hadoop持何种态度?Netezza可能会和Hadoop产生某种联系吗?
Vincent Hsu:我们现在正在做对象存储的研发,以后你会看到在我们的SONAS平台上会有对象存储的这种技术出来。
问:也就是说在现有SONAS基础上增加元数据服务器这种类似的形式?
Vincent Hsu:对,没错。SONAS将来会和IBM其它的存储设备做进一步的整合。
Hadoop是一个大的趋势,非常适合做大数据分析的。IBM有一个很有亮点的技术叫做GPFS(通用并行文件系统),我们正在做GPFS和Hadoop的整合,将来你会看到IBM有针对Hadoop优化环境的(存储/设备)来运行相应的工作负载。
今年的 SNW2011大会上,在SNIA(全球网络存储工业协会)的一个演讲中,我们看到IBM GPFS可以替代HDFS作为Hadoop架构的底层文件系统/数据存储。而在上面的应用开发层,商业方案/接口(Commercial Project / Interface,相对于Hadoop开源方案而言)中第一个列出的就是IBM Bigsheets(大数据表)。
问:我记得用Hadoop自己的HDFS文件系统,存储成本应该比较低。那我们如果用GPFS,成本上是否会不占优势?
Vincent Hsu:Hadoop本身并没有特别的技术让(存储)成本降低。它主要是能够做DAS直连存储,(位于各个节点上的)硬盘是分布式的,所以数据会拷贝 3-4份进行保护。Hadoop不需要高端的产品,不用共享存储,而是用分布式存储。所以它的成本相比共享存储(比如DS8000)要低。
我认为不会因为GPFS的关系而让(Hadoop)价格变高。现在市面上我们看到GPFS的可扩展性上还是最好的。把二者的优点结合起来,在基础上
还是用直连的方式。
GPFS和SONAS在有些观念上是不一样的,SONAS虽然也是Scale-out,但它所有的存储还是以共享式的存储为主;而Hadoop(也包括 HDFS)本身是分开的。我们现在让GPFS也能处理这些分散的、分布式的数据存储,与SONAS使用同样的技术,但支持的工作负载和架构是完全不一样的。
IBM SONAS集群NAS系统组成结构示意图。它的接口节点(Interface Node)和存储节点(Storage Node)之间通过交换式的Infiniband数据网络来连接。因此对于多个接口节点来说,后端的存储节点(包括其连接的存储控制器和磁盘)就是共享式的,任何一个节点的故障都是可以实现容错的。
点评:GPFS与Hadoop的结合是一种分布式文件系统的形式,专门针对大数据分析的应用;而作为集群NAS产品的IBM SONAS则具备更多的适应性,主要面向高性能计算、海量媒体(音/视频)数据的存储。
Vincent Hsu:IBM在过去这5年收购了一些做分析工作负载的软件(包括Netezza?笔者注),现在我们正在做分析软件和Hadoop环境的结合。
分享分享0 收藏收藏0 评分评分 邀请邀请
IT面瓜 发表于: 2011-10-11
我要回答相关推荐
-
投资数据湖 企业亮起哪些信号灯?
满足“信息一代”的需求,对企业来说至关重要。数据湖能整理、存储并分析海量数据,拥有变革业务的巨大能量。那么企业又该何时扩大规模,投资数据湖?
-
统一存储2.0
随着时间的推移,统一存储的定义已经发生了演变。随着诸如对象存储和hadoop等新技术稳步进入数据中心,在新的游戏规则下统一存储需要一个新的定义。
-
三个理由告诉你对象存储替换HDFS还不错
现代存储架构提供了一个可以替代HDFS的引人注目的新方案:对象存储。为什么对象存储是您的组织进行Hadoop分析的一个可选项呢,下面将谈到三方面的原因。
-
存储,买还是不买?
公有云企业的关张,闪存新贵的昙花一现……最近的存储界似乎不是很太平,也许是产业革新前的阵痛。
-
外部存储可能适合Hadoop
使用Hadoop驱动大规模数据的分析并不一定意味着构建分布式存储的集群,一台好的旧阵列可能是一个更好的选择。