SearchStorage执行编辑Curtis谈数据压缩

对于数据存储经理而言，通过数据压缩技术来相应的减少数据存量已经不是什么秘密。但你们了解各种压缩比率的应用对你们系统环境所带来的巨大提升么？本次专访中，SearchStorage.com采访了W. Curtis Preston。作为TechTraget的存储媒体部门的独立分析师和执行编辑，Curtis将和我们一起讨论数据压缩基础，这也是今年SearchStorage.com最流行的关键字之一。 SearchStorage.com：首先，如何去最好地定义数据压缩？ W. Curtis Preston：最简单的定义也就是最好的定义。

作为各种技术中的一种，数据压缩通过分析一个文件或者一段数据流，并找……

查看全文

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

SearchStorage.com：首先，如何去最好地定义数据压缩？

W. Curtis Preston：最简单的定义也就是最好的定义。作为各种技术中的一种，数据压缩通过分析一个文件或者一段数据流，并找出其中的冗余，进而删除数据中冗余部分。听起来稍复杂。但是定义本身多少要复杂一些，这样才能把它同其他技术区别开。

SearchStorage.com：数据压缩是怎样完成的？你能给我们描述一下其中数据都发生了哪些变化？

W. Curtis Preston：基本上，数据压缩一直在寻找数据块中相同的那部分并删除、压缩或???以更小方式替换。这类数据找的越多，能压缩的就越多。举一个最好的例子来说明它是如何工作，例如你创建一个文件并创建一个Oracle的数据库。在你创建完毕之后，去尝试压缩这个文件，你会得到令人惊讶的压缩比率。这是因为整个文件都是由0成的。也就是说我这里有7000个0，这只需要有两三个字节就可以说明。文件中越多的冗余数据，就可以容易获得好的压缩比。

有两个地方可以进行数据压缩。首先例如Winzip、compress和UNIX的技术，针对一个文件使用他们，将其转为.zip或者.z文件。其次，在数据备份流和磁带备份中也可以使用压缩技术。通过实时分析新增数据以及其邻近的数据组和其它相似数据，进而删除重复数据。

在磁带压缩的例子中，特别要注意的一点是，压缩是通过硬件实时完成的。它不紧紧能压缩数据，通过压缩数据进一步减少需要物理性写入磁带的数据还能使磁带运行更块。

SearchStorage.com：压缩技术自从出现以来的是如何改变的？

W. Curtis Preston：过去的15年以来，我一直在使用压缩技术。他其实没什么改变。已经有这样那样的算法或者命令出现，并试图去改进它，例如在开源社区的gzip。但是从根本上讲，如今应用在UNIX和磁带备份中的压缩方法和15、20年前没什么太大的不同。现在的方法可能速度更快些压缩的更多些，实质上是一样的。

SearchStorage.com：什么样的数据有利于压缩，什么样的文件需要被压缩？

W. Curtis Preston：有些数据类型利于压缩有些则相反。通常来讲，一些数据类型已经被预压缩了，例如TIFF文件。有一些图片文件类型是被预先压缩过的。既然已经预压缩过，再进一步压缩就没什么必要。

在压缩社区的讨论中，有这么一个概念。如果你将已经通过一种算法压缩好的文件，以.zip存放到文件系统中，再将它备份到另一台具有压缩功能设备上，这个文件反而会变更大。我从来没测试过这是不是真的，不过我觉得人们没必要过分担心。当然总有些人是太过担心这些，反而能让他们的文件系统更好。

SearchStorage.com：我们最近听说了很多重复数据删除的话题。怎样才能深入浅出的讲解让我们区分开数据压缩和重复数据删除呢？

W. Curtis Preston：在一个时间段内的数据压缩即是重复数据删除。压缩是对一个数据实例而言，找出其间重复的部分并用指针代替。去重也有同样的步骤，并会更进一步通过寻找对比我们曾见过的历史数据。所以它不仅仅分析可以压缩的文件，而且会寻找去重设备曾经见过的历史数据。

有些博客里会简单的说重复数据删除和压缩是一样的。最初就压缩定义而，我本来会说它就是让数据变小。但是我不喜欢这个定义。压缩本身是一种针对特定数据而言的特定技术。而去重则需要既定时间内对数据进行处理。去重设备一旦处理越多，越重复的数据，最终则能越好取得去重率。

在最开始使用去重设备时，去重比例可能会令人非常失望：4：1或者5：1。但是通过一段时间的数据累加，这个比率可能因为你的数据，达到10：1，20：1甚至更高。但就压缩而言，你不会去对比今天和昨天的文件，所以只能得到那么多的压缩比率。

另外很重要的一点是，几乎所有我知道的去重系统都提供此两种技术，他们都有传统压缩算法，也应用重复数据删除技术对比历史数据。一般来讲因为重复数据删除技术是较宏观的而压缩技术则相对微观，系统会先使用重复数据删除技术再使用压缩技术。

SearchStorage.com：有些人会提到2：1的压缩比率，您能解释一下是什么意思么？

W. Curtis Preston：这不难。它是指你有一个10MB的文件，现在只占用了5MB的空间。对于使用the Lempel-Ziv算法的很多人来讲，这是一个经常被提到比率。这个算法已经存在很长很长时间。基本上没有人实际做到它。我一般预测压缩比都在1.5：1。我知道有些会更高。我曾在一个客户那里见过3:1，但很少经常见到2：1。我比较常见1.5：1，就是说我有个6MB的文件现在只占用4MB的空间。

作者

: SearchStorage.com

SearchStorage执行编辑Curtis谈数据压缩

取消回复

作者

SearchStorage.com

相关推荐

Togio：消重和压缩技术只是解决存储容量问题的短期方法

VM存储效率提升技术：重复数据删除、数据压缩、自动精简配置（下）

VM存储效率提升技术：重复数据删除、数据压缩、自动精简配置（上）

戴尔在新的文件系统中加快数据压缩