视频:在Hadoop集群中理解存储

日期: 2012-06-12 翻译:王勇 来源:TechTarget中国 英文

在Hadoop集群中理解存储 在过去几年中,出现了许多“大数据”分析方法,Hadoop受媒体的关注最高。Hadoop的概念源于2004年Google描述的网络数据并行处理过程(MapReduce)和其支持文件系统的文章中。不久以后,实现了开源MapReduce框架的Apache Hadoop诞生。快速增长的社会环境和外围软件的开发,扩展了它在企业数据中心的可用性。

潜在的Hadoop用户正面临着持续增长的平台资源的选择问题,平台资源范围从开源的(Apache Hadoop 和Cloudera)到更商业化的以及“企业级”版本(EMC Greenplum HD, Hortonworks, MapR……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

Hadoop集群中理解存储

在过去几年中,出现了许多“大数据”分析方法,Hadoop受媒体的关注最高。Hadoop的概念源于2004年Google描述的网络数据并行处理过程(MapReduce)和其支持文件系统的文章中。不久以后,实现了开源MapReduce框架的Apache Hadoop诞生。快速增长的社会环境和外围软件的开发,扩展了它在企业数据中心的可用性。

潜在的Hadoop用户正面临着持续增长的平台资源的选择问题,平台资源范围从开源的(Apache Hadoop 和Cloudera)到更商业化的以及“企业级”版本(EMC Greenplum HD, Hortonworks, MapR)。因为每个用户的存储不同,首先让数据存储管理员在商业版Apache Hadoop的环境下理解存储是非常重要的,供应商认为这正是存储方面的不足。在即将到来的大数据管理时代,我们会更清晰的看到这些明显的不足。

Hadoop集群:一个非共享框架

Hadoop在某些方面类似一个文件系统,但是事实上它并不是一个文件系统。相反地,Wikipedia对它的定义是一个应用软件框架,能够用于支持PB级规模的数据密集型应用数据处理。Hadoop框架包含了一个分布式文件系统(Hadoop分布式文件系统[HDFS])。

Hadoop集群通常被称为“非共享”。HDFS与一些常见的文件系统如NFS和CIFS的区别之一是它支持分布式计算,非共享框架。

非共享的字面意思基本上是正确的。在由并行节点组成的分布式计算集群中,唯一真正共享的是计算节点内部通信的集群网络资源。此外没有其它的共享,包括存储,它是基于磁盘的直连存储(DAS)实现的。这里的DAS通常是每个节点由八到十块的磁盘组构成,并配置为RAID 或 JBOD达到最大性能。由于成本问题,通常不使用固态硬盘(SSDs)。

非共享模式的目标之一是降低处理延迟。众所周知,我们在五秒或更短的时间内对海量数据的查询是非常困难的。所以最大限度地减小集群范围内的延迟是Hadoop开发者和系统架构师的首要任务。

CAP原理和DAS由来

Hadoop通常从多个数据源获取源数据,在Hadoop集群内跨多个磁盘访问数据。查询进程被分配到集群中的处理器,并行访问集群中直连到每个处理器的磁盘的数据,使系统延迟降到最低。

更好的理解延迟降低的原因,有助于初步理解CAP原理,主要有以下几点:

分布式计算系统(如Hadoop)同时满足以下三点保证是不可能的:

1.一致性(所有节点同时看到相同的数据)

2.有效性(不管成功或失败,保证每个请求收到一个响应)

3.分区容错(不管系统任何一部分消息丢失或失败系统能够继续运行)

一个分布式系统能够同时满足以上三点保证的何意两点,但不能同时满足三点。

Hadoop开发人员明白它们不能同时具备一致性、有效性和分区容错,通常支持“A”和“P”,首先保证俗称的“最终一致性”。集群范围内的性能最大化来支持这些假设。延迟可能随时随地被挤出Hadoop计算集群。存储是开发人员查找潜在延迟的首选地之一,这是因为他们使用DAS为计算节点提供数据。分布式计算中,这个概念通常被称为“数据局部性”。网络存储(网络直连存储[NAS]和存储区域网络[SANs])不能为集群提供数据局部性。

DAS仅适用于Hadoop吗?

受到媒体强烈关注和审查,对于Hadoop社区来说,有好消息也有坏消息。坏消息是,商业供应商一直忙于指出Hadoop的缺点,他们把附加软件和/或不兼容的版本放在适当的位置,旨在为用户提供一个更好的Hadoop体验,特别是那些企业级IT用户。好消息是从长远来看,加强审查加快了Hadoop分析框架的普及,这正是商业供应商希望的,同时也使它更快地、更方便地用于企业应用。给存储管理员的启发是,如果你还没有使用Hadoop,不能假定在你的环境中永远不会看到它或者它永远不会进入你的管理范围。

然而,你必须面对的挑战是Hadoop的企业级费用:HDFS或多或少可以实现Hadoop集群结点分布式访问存储,由DAS保存数据并减少延迟。SAN和NAS 存储的可扩展性和弹性并不受欢迎。所以,你熟悉的存储环境,你长此以往的存储管理技能,可能并不适合。但它真是这样吗?

我们现在知道称为“第二代”存储的SAN和NAS对于Hadoop集群的价值――存储的基本功能是作为数据保护和/或归档存储层与Hadoop的基于DAS的主存储层的整合。发展是不可想象的――以NAS或SAN作为Hadoop的主存储正在替换DAS.我们甚至可能会看到采用分布式计算架构扩展存储系统,其内部的文件系统上运行着Hadoop的MapReduce框架。

翻译

王勇
王勇

相关推荐