在本系列的上一文中,我们以管理大数据这一问题作为结论:Hadoop存储是否必须为直连存储(DAS)?文中介绍了在Hadoop MapReduce框架内严格使用基于硬件存储的DAS的一些替代方案。这样,我们依照三级模型来检测替代方案: 第一阶段:DAS以大量磁盘替代嵌入每个集群节点的少量磁盘(JBOD/RAID)的形式,集群节点外部的高性能阵列仍旧通过直连提供数据访问。在某种程度上,我们正在改述我们最初的问题:Hadoop数据存储是否必须是嵌入每个集群节点相对小的DAS分组?不,然而代替嵌入式DAS的更大的外部存储阵列依然具有DAS的功能。 第二阶段:被集群用作主存储的基于节点的DAS层增强了由……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
在本系列的上一文中,我们以管理大数据这一问题作为结论:Hadoop存储是否必须为直连存储(DAS)?文中介绍了在Hadoop MapReduce框架内严格使用基于硬件存储的DAS的一些替代方案。这样,我们依照三级模型来检测替代方案:
第一阶段:DAS以大量磁盘替代嵌入每个集群节点的少量磁盘(JBOD/RAID)的形式,集群节点外部的高性能阵列仍旧通过直连提供数据访问。在某种程度上,我们正在改述我们最初的问题:Hadoop数据存储是否必须是嵌入每个集群节点相对小的DAS分组?不,然而代替嵌入式DAS的更大的外部存储阵列依然具有DAS的功能。
第二阶段:被集群用作主存储的基于节点的DAS层增强了由网络附加存储(NAS)或存储区域网络(SAN)组成的第二存储层的添加。
第三阶段:用于主存储的基于节点的DAS层由NAS或SAN组成的网络存储层代替。现在,我们接下来看一下三个阶段中每个阶段的详细情况。
第一阶段
首先关注的是使用外部磁盘阵列作为Hadoop集群的主存储,这样保留了DAS非共享和数据局部性的特点。典型的存储阵列被划分为DAS的多个卷,全部封装在相同的阵列中。每个节点有它自己的非共享磁盘集合。一旦这样做,那么,现在常见的高性能的所有特点和功能,数据中心级RAID阵列可用于Hadoop的NameNodes和DataNodes。有益的效果,从数据存储管理员的角度看,NameNodes和DataNodes是有差异的:
在NameNode级:Hadoop NameNode存储保存集群范围元数据。NameNode在不能正常工作时能够关闭集群,它是众所周知的单故障点。一个数据中心级阵列可以作为集群元数据的标准存储库,支持从失败中快速恢复。它也可以作为其它集群的软件库,包括脚本;同样,它可以用于简化集群部署、升级以及不间断的维护。
在DataNode级:标准Hadoop集群通常使用基于DataNode软件来提供数据保护和系统恢复。Hadoop集群使用分布式存储,主机基于软件的多数据镜像方案功能访问集群中所有的DataNodes。改进数据采集,用户通常指定原始数据的两个额外的副本写入集群中其它两个DataNodes,集群中包含生成的三个数据副本。这样提供了一个发生失败时恢复能力,以及平衡访问(负载均衡)集群中DataNodes的数据。
然而,通过使用三个复制,每TB的数据采集产生3TB的存储。此外,拷贝进程消耗集群处理资源和内部通讯带宽,削弱那些用于分析进程的相同资源的可用性。
使用外部阵列来支持DataNodes允许存储管理员使用阵列驻留数据保护功能,包括RAID、快照、连续数据保护(CDP)、克隆以及外部复制。移动数据保护进程,为不良事件恢复目的创建数据副本,关闭Hadoop集群并让出存储阵列旨在更有效地完成这些任务。也可用于数据安全和保护过程。
集群范围性能也可以被提高。正如上面所说,集群中三倍镜像消耗服务器和网络带宽。移动数据保护功能关闭集群并让出阵列,把消耗的集群资源返回给集群。NetApp的开放式Hadoop解决方案可以看作第一阶段例子的实现。
第二阶段
我们提到Hadoop存储管理员通常维护集群中数据的三个副本用于数据保护和灾难恢复。一些Hadoop商业版支持使用外部共享存储作为Hadoop内部镜像进程的目标,例如,三个数据副本中的一个存放在外部。基于节点的DAS保持不变。
正如第一阶段所说,Hadoop环境中实施的外部存储也能达到保护非共享和数据局部性要求(DAS作为主存储层被保留),让存储管理员能够应用它们的数据保护、安全和保留进程。此外,因为现在SAN和/或NAS能够充当二级存储层支持Hadoop集群,外部存储变成可扩展的数据存储库。使用DataDomain和VMAX的EMC Greenplum HD是第二阶段例子的实现。
第三阶段
在第三阶段,规则开始被破坏。例如共享存储——向外扩展的NAS——变成Hadoop的主存储层。DAS已经离去。非共享和数据局部性已经离去。然而,大多数为现代存储平台(自动分层,内部和外部复制等等)所共有的有利属性被应用于Hadoop数据。
这种共享存储在Hadoop环境下的实施,可能会限制集群的大小。因此,当数据存储在向外扩展的NAS系统,能够支持正常业务应用时它似乎是一个可行的选择,例如,被复制以及出现运行BI应用和连接到相同的NAS系统的小的Hadoop集群。
第四阶段是否即将到来?
当前可能出现的第四阶段在今年晚些时候出现。第四阶段是什么?我们已经知道向外扩展的存储架构以分布式计算(又称网格)为基础。这种存储平台包括但不限于EMC Isilon、IBM SONAS 和 Sepaton DeltaScale。正如在以前的文章中提到的Hadoop集群,Hadoop MapReduce的目标是移动相邻计算单元的数据来减少集群延迟。但是,假设你从相反的方向做了移动相邻数据的计算。向外扩展的存储计算节点通常拥有足够的计算能力和内部网络带宽来支持Hadoop。所以存储管理员,准备来管理你自己的Hadoop集群。
评价Hadoop存储
走过前三个阶,我们得到暗示:Hadoop存储有些问题,但是通过使用更强健的和可扩展的存储平台来支持Hadoop集群可以解决这些问题。在本系列第四篇文章中,通过评估Hadoop作为一个企业级数据中心的存储设备,我们将更详细的讨论这些问题。我们着眼于Hadoop存储如何维护系统可用性、管理数据保护以及其它问题,同样你将来可能作为存储管理员。
马上开始,值得一问的问题: Hadoop的存储层的一些问题会被解决吗?那些了解Hadoop缺点的人们一定会回答“是”。
作者简介:John Webster是Evaluator Group公司的一位资深合伙人,主要负责数据存储技术的研究,包括硬件、软件和服务管理。
作者
翻译
相关推荐
-
Red Hat新推Storage one捆绑硬件及SDS
Red Hat为其开源存储软件新增设备选项,本周该公司推出Storage One,这是与服务器硬件供应商共同设 […]
-
数据和云计算对CIO工作的影响
近日笔者在报道云计算对首席信息官(CIO)的影响时,总是会得出相同的观点:CIO的工作已经不再是曾经的技术工作 […]
-
冬瓜哥新作《大话存储后传》读后随感
今天要向大家隆重推荐一部有关存储的新作——冬瓜哥的《大话存储后传》,副标题是“次时代数据存储思维与技术”。
-
投资数据湖 企业亮起哪些信号灯?
满足“信息一代”的需求,对企业来说至关重要。数据湖能整理、存储并分析海量数据,拥有变革业务的巨大能量。那么企业又该何时扩大规模,投资数据湖?