分层存储架构的原理与实施选择

日期: 2007-12-17 作者:中国IT实验室 来源:TechTarget中国

  分层存储是将不同类别的数据分配到不同类型的存储介质上,目的是提高存储效率,减少总使用成本(TCO)。存储分类基本上是根据应用程序的服务层面的要求,包括可用性、性能、保存要求、使用频率以及其他因素等。由于大量的日益增长的电子存储数据、最佳实践政策、自动持续性分配软件、特定数据匹配以及设备特点等因素,分层存储可以非常复杂。

  分层存储可以采取多种形式,而且经常是存储架构增长的自然结果。通过将高速缓存分配给不同数据,以及/或通过使用不同特点的物理上分开的存储阵列,分层存储可以在一个阵列内建立(使用不同容量的或不同性能的磁盘驱动器)。

  分层存储号称可以节省多达50%的存储使用成本,使得它成为无差别容量配置的一种有吸引力的方案。分层存储的主要商业驱动因素和终端用户的考虑包括如下:

  • "SAN(存储局域网)的异构"导致了互不兼容的存储孤岛,没有很好的方法能够在服务器和磁盘阵列之间共享数据;
  •  兼并和收购带来了异构的SAN架构,进一步增加了复杂性;
  • 昂贵的一级(Tier-1)架构在一些时候显得成本太高,使得许多公司发展"避免一级架构"策略;
  • 迁移和配置复杂性要求应用程序关闭,以便迁移数据或配置新的容量,由此引起的每迁移阵列成本经常超过50000美元。

   Wikibon.org进行的终端用户研究显示在硬件和软件上每花一美元,还要花50美分在数据迁移和阵列使用期间的配置上面。通过分层存储,这一数字可以降低到每一美元硬件软件花低于10美分在迁移和配置上。

  在主机领域,自动分层存储已经实现多年,为什么IT界对它这个目标如此健忘呢?答案,当然是,在于主机外的存储异构性。由于存储硬件、应用、技术以及架构的分化,因此虽然几位厂商有努力实现自动化,但是还是面对很大的挑战。结果,作为一种积极策略,分层存储的市场渗透率只有10%到15%,虽然根据有些人的定义,实际上每个公司都有一定形式的分层存储。

  一种可能的策略是将磁盘存储迁移到一个单一架构(例如,所有都到一级存储),但是这种方法成本非常高,而且绝大多数用户不能这么做。数据格式仅仅是其中一项挑战(例如,块 vs 文件),甚至还不是最难的问题。真正阻碍分层管理的采用的问题是如何建立一个有效而且"自动的"基于政策的跨IT环境的分类系统,并使这个系统受各个应用和用户组的数据访问需求所驱动。

  为支持这个,一些公司降低需要管理的分层数,明确沟通这些方针,并且同时对前段服务器资源和后端存储资产进行虚拟化,从而简化了策略。虚拟化的一个关键好处是应用程序能够保持其所看到的存储资源,但是这种观感其实可以在任何时候由任何地点映射过来的–并且是动态的。数据可以进行无缝的迁移,而应用不会发觉这种变化。但是,虚拟化也带来其本身的一系列问题,包括其实施复杂性,以及许多应用的性能问题(下面讨论)。

  对于不考虑虚拟化的用户,其解决分层存储的方法是专注于同质数据–例如电子邮件系统和软件开发数据–的大型数据池、以及围绕这些迅速增长的数据池建立分层存储岛。这种方法也能节省大量成本,而且其实施比起虚拟化要容易得多;但是,持续管理费用的增长可能非常快。平衡的方法就是需要用人力手动地为这些数据池构建桥梁,而且由于应用程序需要知道变化,因此这些应用程序需要被中断。

  虚拟化开始以自动运行的方式来构建这些桥梁,而且看起来可能是将来许多大型企业的最佳解决方案。但是,作为一种方案,几个厂商提供的"内置"分层技术可以让更高容量、更低成本的设备在同一个阵列中作为一种更高成本、更高性能、更低容量的驱动器而存在。虽然这是分层的一个最简单的形式,用户有时还是不情愿采用这种方法,特别是当它需要给更昂贵的一级存储平台增加容量时。

  重要的是,虽然大部分的分层存储讨论集中在高成本、高性能的一级存储,以及成本更低的二级存储这个中间解决方案,但是世界上的超过一半的数据是存在于三级系统,要么是非常低成本的磁盘,要么是磁带技术。这对用户来说是个很大的问题,在分层存储策略如记录管理和保留政策中–越来越进入存储管理者的日常工作流程的策略–必须考虑进去。

  做什么

  许多有兴趣解决SAN问题–如速度慢、存储增长超过控制、难以承受的迁移成本–的公司开始转向分层存储并采取以下措施:

  • 明确定义恢复点目标(RPO)和恢复时间目标(RTO),并将这个作为数据放置的依据(相对于业务范围导向且没有明确目标的一级服务);
  • 同业务部门沟通这些要求,允许IT部门根据这些政策方针来进行存储分配; 简化层级,要求最严格的应用程序放在一级(根据服务层次),其他的缺省地放在二级,并且根据记录管理和保留政策–按照法律规定和公司要求–迁移到三级存储;
  • 虚拟化前端和后端资源,在存储阵列外提供一个服务层,并逐渐倚重低成本阵列来降低硬件成本和减少昂贵的存储软件许可证支出。虚拟化所有可能二级存储,并尽量虚拟化一级存储;
  • 存储管理软件和流程,减少现有的存储管理软件套件,如果可能,减少到一个套件;而且
  • 按应用程序分组,仔细测试虚拟化的可靠性和性能,在合理的时间范围内进行部署;
  • 在建立了一个单一的SAN环境之后尽可能快地实施分层存储策略。

  自然,这些策略还在发展中,而且还有一定的风险,即虚拟化复杂性,性能问题,可用行问题(例如,将一个一级存储阵列放在一个中等虚拟化设备的后面)。而且虽然这些方法看起来能够明显简化IT环境并减少硬件、软件和迁移成本,但是它们非常依赖于厂商(们)所提供的虚拟化技术。用户在管理这些风险的时候需要有极其谨慎的心态,实行保守计划,采取兆级管理策略–这些兆级管理策略不单单依赖于厂商提供的产品,而是将组织作为一个整体来抓住其流程。虽然有这些问题和潜在的锁定风险,50%的期望成本节约还是使得分层管理成为一个有吸引力的目标。

  技术问题/选择

  有效的分层存储实施包括几个关键技术:确保有效分类的软件和流程,无中断数据集迁移软件,以及确保完整性的硬件。

  最困难的技术问题是确保数据完整性,特别是当出现一些故障的时候。应用程序性能也是一个关键因素。许多组织同时转向服务器和存储虚拟化来解决其数据增长和成本问题。目标是建立一个更加灵活、反应灵敏、成本合理的架构。

  对于小型网络,基于网络的虚拟设备可以运行得很好,但是其整合还是需要终端用户来完成。许多公司选择只做到这一步,即将存储阵列虚拟化到一个虚拟设备的背后。这里的一个关键问题是这些公司能够在何种程度上在所有存储领域中成功地采用这项策略。尤其是,例如,如果该虚拟设备的可用性低于连接在该虚拟设备背后的设备的时候,结果会是怎样?同时,如果由于和虚拟化阵列相关的费用限制,一个虚拟设备不能支持该应用所要求的响应时间,那么这个虚拟设备就不能被包括在虚拟化策略内。此外,在所支持的逻辑单元号上,这种虚拟设备经常有限制,需要安装更多的虚拟设备–增加了复杂性和开支。尤其是,跨设备的存储不能在一个逻辑池里面就能被虚拟化。

  在大型网络,出于架构考虑,用存储控制器来处理所有的数据完整性和数据迁移问题可能是有利的,而且该管理器具有在架构内外同时支持虚拟化阵列的能力。这种方式能够允许所安装的资产和更低成本的阵列连接上来。随着自动精简配置的采用(能够在逻辑上将存储过量分配给某一个应用,但是在物理上实际上只配置了当时所需要的存储),这种方式变得更加具有吸引力。但是,这种方法还是有一些整合问题,包括建立这种架构和将现有数据和架构迁移到新的系统中会产生中断问题。

  为使分层存储方案进入虚拟化(或是一个虚拟化环境中的一个辅助性节点),越来越多的厂商提供内置型分层存储解决方案,使用低成本SATA(串行接口)设备,例如,连同高性能的光纤通道驱动器。这只是一个很简单的方法,但是它确实能够整合不同的存储阵列。范围得到显著提升的簇集式控制器的发展使得这些方式更加有吸引力;但是,这种技术还只是刚刚出现。

  从技术整合的角度看,用户不可试图寻找万灵药(例如,跨数据中心的单一异构解决方案)。基于块和文件的存储还是非常分散的,进一步分化了存储策略。此外,用户还要专注于数据分类、政策、自动化,并且将那些能够减少迁移和配置问题的技术给整合起来。 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐