更高效使用存储技巧之:压缩和重复数据删除

日期: 2009-12-10 作者:Robert L. Scheier翻译:曹同举 来源:TechTarget中国 英文

压缩是最原始的节约空间的方法,重复数据删除则是最新的方式,但是两者之间并不是毫无联系的,它们都可以节省存储成本。正确理解这两种技术的区别是能否高效使用他们的关键。   压缩是利用数学算法来简化庞大的或者重复的文件。不同的压缩产品可以应用在不同的场景中并且可以处理不同的文件类型。

某些存储厂家使用的是一些操作系统集成的压缩功能,例如Unix系统或者是利用Windows平台上的Winzip这些低成本的软件工具。NetApp公司的数据保护方案部门的高级主管Chris Cummings表示,今年年底NetApp将在包括关键产品在内的所有产品线上加入压缩功能。   重复数据删除是消除存储内的重复数据, 厂……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

压缩是最原始的节约空间的方法,重复数据删除则是最新的方式,但是两者之间并不是毫无联系的,它们都可以节省存储成本。正确理解这两种技术的区别是能否高效使用他们的关键。

  压缩是利用数学算法来简化庞大的或者重复的文件。不同的压缩产品可以应用在不同的场景中并且可以处理不同的文件类型。某些存储厂家使用的是一些操作系统集成的压缩功能,例如Unix系统或者是利用Windows平台上的Winzip这些低成本的软件工具。NetApp公司的数据保护方案部门的高级主管Chris Cummings表示,今年年底NetApp将在包括关键产品在内的所有产品线上加入压缩功能。

  重复数据删除是消除存储内的重复数据, 厂家称数据删除的比率可高达15:1至20:1. 接受赛门铁克公司调查的95%的用户都很关注重复数据删除,大约52%的用户正在部署或者已经部署了这个功能。

  可是,重复删除只有对那些有较少变化的数据有效(例如备份公司冗长的文档或者工程计划等),对那些只有小部分相同的数据效果并不明显(例如存储在医疗系统里面CAT扫描数据)。存储咨询公司Storage Switzerland分析师George Crump表示,相对来说,大部分的压缩产品对所有数据都可以有2:1的压缩效果,有时多些,有时却没有效果。

  Crump还提到,重复删除其实对那些很少存储相同记录的关键存储设备没有多少价值。Forrester调研机构(是一家独立的技术和市场调研公司,针对技术给业务和客户所带来的影响提供务实和具有前瞻性的建议)的高级分析师Andrew Reichman表示,重复数据删除可能会降低关键存储硬盘的访问速度,这就需要重复数据删除在数据到达硬盘之后完成。把不需要重复删除的数据写到交换空间上,然后再把它复制到单独的硬盘上,这样就可以减少磁盘的容量。这就是重复删除的原理。

  Dan Trim表示,使用赛门铁克的Vertas NetBackup PureDisk 产品可以节省50%的存储容量。

  关于在何处和如何使用重复数据删除,厂家们的观点都各不相同。赛门铁克推广的是在任何地方都可以使用的策略。NetApp认为存储第一层一般是高级事务管理和高IOPS的数据库环境,他们不推荐在这一层使用。而在存储虚拟服务器、二层数据库、文件服务器和归档设备上使用重复数据删除非常的安全,对性能不会有任何影响。

  纽约健康中心的IT主管Chris Watkis表示,自从2007年采用飞康公司(FalconStor)的软件Virtual Tape Library重复数据删除产品之后,给公司带来很多出乎意料的便利。这家药物市场公司的业务在向其他的市场逐渐扩张,他们制作了许多大容量的视频文件并且要保存很长时间,采用了这套软件之后备份和恢复的速度有了大幅的提高。

  美国飞康公司(FalconStor)软件中的重复数据删除报告可以显示在备份之前有多少的冗余数据可以被删除。Chris Watkis经常根据这个信息,利用其他的一些存储管理工具,来扫描服务器上的多余的数据,到目前为止已经恢复了16TB的存储区域网络(SAN)空间中大约40%的空间。这些节省都是很重要的,因为2009年的存储财政预算缩减了20%。

  Joseph Stedler是External IT USA 公司的高级工程师兼Dallas 数据中心经理。对于重复数据删除,他应用了Data Domain公司的硬件设备和Veeam Software公司的Veeam Backup&Replication 软件,它们结合在一起为VMware ESX 虚拟服务器提供重复数据删除和备份工作。尽管价格比较高,但考虑到它的高性能并且可以在不同的数据中心之间复制数据,Stedler最终还是采用了Data Domain公司的方案。

  Gartner公司研究副总裁Roger Cox表示,EMC公司提供的基于主机的重复数据删除软件Avamar已经获得了客户的认可。

  Wikibon Project(在线支持协作社区)的首席技术官兼合伙人David Floyer表示,NetApp公司的重复数据删除主要是针对关键的存储设备而不是备份任务,它可以使一些厂家的存储设备例如Data Domain,节省30%的硬盘空间。Floyer着重提到,在计算整体的ROI时,因为数据在使用之前还要恢复要原来的状态,用户需要更多的存储控制器来保证关键业务的IO和带宽。这样就影响了整体的费用节约的百分比,从原来的30%降至15%。

  用户不仅需要注意整体的压缩比率,并且还要注意从压缩或者删除重复数据到还原到原来的可读状态需要花费的时间。Greg Schulz称,如果用户的删除重复数据程序跟备份或者恢复软件无法正常结合在一起工作的话,节省了再多的空间也没有用处。

相关推荐