TechTarget中国原创 数据简缩技术指南! (一)
在备份领域,重复数据删除和数据压缩技术的应用非常成功。那么,这些技术可以应用于主存储系统吗?
新一代主存储产品借助数据简缩技术,能够缩减磁盘使用量的问题,这一点是毫无争议的,但是我们却不能确定,基于主存储的数据简缩技术是否利大于弊。
对于主存储系统来说,数据简缩(data reduction)是一个更准确的术语,因为不是所有的数据简缩产品都基于重复数据删除。
压缩技术的优点是非常成熟,并且易于理解。它的缺点是处理机制仅限于单个文件之内,而无法做到跨文件处理。
针对某些特定的数据类型,块级别的去重效果是相当明显的。
怎样才能使用更少的磁盘,节省更多的电力。如果你买对了产品,不但可以缩减磁盘数量,甚至能够削减50%的电费成本 — 这是主存储数据简缩技术的宣传口号,非常吸引人!与此同时,此类产品的价格也极具吸引力。不过,对此类技术质疑的声音仍然存在。尽管在缩减磁盘使用量这一点上几乎不存在争议,但是我们仍然不能确定基于主存储的数据简缩技术是否利大于弊。
[b]以下是在主存储上使用数据简缩技术的关键问题:[/b]
[list]
[*] 为什么叫做数据简缩,而不是重复数据删除?
[/list]
[list]
[*] 磁盘已经很便宜了,为什么还要开发新技术简缩数据?
[/list]
[list]
[*] 基于主存储的数据简缩技术有哪些不同类型?
[/list]
[list]
[*] 究竟能节省多少磁盘空间?
[/list]
[b]数据简缩的定义[/b]
在备份领域中,重复数据删除是被大家公认的、最恰当的技术术语,一般用来描述去除备份数据集的冗余部分。但是对于主存储系统来说,数据简缩(data reduction)却是一个更准确的术语,因为并不是所有的数据简缩技术都是基于重复数据删除的方法。作为一类技术的总称,任何能够降低磁盘空间占用的技术都包括在数据简缩的范围之内。目前,数据简缩技术有三种主要的类型:压缩、文件级重复数据删除、块级(或字节级)重复数据删除。
在详解这些不同的技术之前,让我们看看主存储系统和备份存储系统究竟有哪些区别(上面提到的几种数据简缩技术,都是先用于备份系统,之后才得以应用到主存储系统的)。主存储和备份之间最主要的区别在于它们对数据实体的存储与访问方式不同。备份是典型的批量写操作,一般通过自动化的进程处理。备份过程中,生产系统的性能会暂时下降,或者出现系统资源不足的情况。有的系统内部会植入一些技术,以解决备份过程中出现资源紧张的问题。备份过程几乎没有读操作,多数用户并不关注数据恢复的速度,如果有人要求恢复文件或数据库,管理员根据需求做恢复操作就可以了,除非恢复的时间特别长,否则没有人真的在意到底要等多久。大多数人对备份系统的期望值并不高,只要数据能恢复,他们就会满意(这看上去有点儿可笑,但事实的确如此)。使用基于磁盘的备份系统,可以显著降低备份过程对生产系统性能的影响,很多人都察觉不到这种影响的存在。
主存储系统则完全是另一种情况。数据会随时写入,常见的写操作包括填写电子表格、更新数据库,储存文档或者编辑多媒体文件等等,每天都可能有几十甚至数百次类似的操作请求。用户很在意“数据存盘、打开文档、访问数据库和网页”这些操作的响应时间。设想一下,如果因为某些原因,用户在存盘或打开文件时时间从一两秒延长到三四秒,那么肯定会找管理员投诉的。
这就意味着,主存储系统的首要原则是“不能出问题”,换句话说是不能影响请求的响应时间。回到最初的问题,使用数据简缩技术可以极大地降低存储系统的采购成本、节约电力并减少散热,但是,如果因为使用这些技术而给用户的应用体验带来负面影响的话,单纯的成本上优势看上去就不那么有吸引力了。
在主存储系统中,使用数据简缩的另一个挑战是磁盘空间的节省程度是否可以达到在备份系统中使用重复数据删除技术同样的水平,这通常是很难做到的。传统的备份技术大多以多份副本的形式将数据存放在不同的地方,同时带来大量的重复数据,但主存储系统一般不是这种情况(虽然也有例外)。大多数人感觉数据简缩50%(简缩比率为2:1)是很可观的,这就是为什么多数提供主存储简缩技术的厂商很少使用比率来衡量效果,而更倾向于使用百分比这个概念。(数据存储简缩75%,听上去比简缩率3:1更吸引人。)
如果用户考虑在主存储系统中实现数据简缩,而且期望的底线是达到备份环境中数据去重的效果,那这个工作就是非常困难的,并且得不到什么回报。我们在这里并不是不建议用户考虑主存储数据简缩技术,而是告诉用户要有一个合理的期望值。
[b]基于主存储的数据缩减技术[/b]
压缩。压缩技术已经出现了数十年,但是压缩通常是针对那些存取频率不是很高的数据,这是因为数据的压缩和解压缩需要CPU进行非常密集的计算处理,这样往往会影响数据的访问。
在企业级数据中心,压缩被广泛地应用在备份领域。现在的磁带机都可以在备份和恢复过程中动态地压缩和解压数据,我们看到压缩不仅没有减缓备份的速度,事实上还提高了备份的性能,这是怎么一回事呢?其秘密就在于磁带机使用了专用的芯片,能够以达到线速的性能对数据进行压缩和解压缩。通过压缩,数据减少了大约50%,相当于磁带机只需要将数据总量的一半写入到磁带,鉴于磁头是I/O的瓶颈,压缩实际上提高了磁带机的有效性能。
与备份应用一样,压缩的优势同样体现在主存储系统中。有一些产品诸如Storewize公司的STN-2100和STN-6000,以及Ocarina Networks公司的ECOsystem,都支持在数据写入/读取过程中同步进行压缩/解压缩,如果它们能达到线速,就不会影响主存储系统的读写性能。压缩算法的效果与数据类型有一定关系,针对不
同类 发表于: 2010-06-01
我要回答相关推荐
-
提升数据存储设备的存储效率越来越容易
尽管有很多关于数据中心效率和数据存储设备耗电和制冷成本上升的言论,但在许多IT公司,节能总是靠后站的。这部分归咎于通往存储效率和节能的道路的复杂性。
-
数据简缩技术提高存储效率
数据简缩技术,通过简单地删除不必要的或者不需要的数据是减少公司数据量最有效的方式,但反过来,这项技术增加了能源的消耗。
-
TechTarget中国原创 数据简缩技术指南! (二)
[b]主存储数据简缩产品介绍[/b] 下面提及的厂商目前都已经推出了主存储数据简缩产品(按字母顺序排列): […]
-
存储经理人2010年4月刊:主存储的重复数据删除
使用更少的磁盘,节省更多的电力,如果你买对了产品,不但可以缩减磁盘数量,甚至能够削减50%的电费成本——这是主存储数据简缩技术的宣传口号。在备份领域,重复数据删除和数据压缩技术的应用非常成功。那么,这些技术可以应用于主存储系统吗?对于本期的内容您有何反馈,欢迎进入讨论区与我们交流!