重复数据删除:风险与利益并存

日期: 2011-11-03 作者:Trevor Pott翻译:Catherine 来源:TechTarget中国 英文

    Windows Server 8发布之后,增强了对存储性能的支持。特别是数据重复数据删除技术紧紧地吸引住了我的目光,这正是我长久以来在Windows文件服务器下所热切期盼的功能。

  重复数据删除技术并不是什么新鲜的技术,ZFS系统拥有重复数据删除功能已经有一段时间了,并且这项技术也可用于Linux平台下的Btrfs。

  同样值得考虑的是Opendedup,通过SDFS实现的重复数据删除功能在Windows和Linux上均可使用。

  对于重复数据删除技术理解理解起来非常简单,它本身是一项技术,可以允许在您的硬盘驱动器上只存储一份重复数据。从而节省了空间和潜在的超速文件写入。本质上说,它是单实例存储。重复数据删除可以在文件级、块级或字节级里运行并起作用。文件和数据块级是最常见的。

  速度支持

  这是可以做到同步(如写入发生)或异步的(作为一个在安静的时间预定作业。)

  同步重复数据删除需要消耗大量CPU运算能力。这么大的能耗使得高端文件服务器厂商总是吵着要用最快的Xeon处理器,并推动与研究利用GPGPU技术。

  这很容易想到原因,试着把一个5GB的文件压缩成Zip包所需要的时间。进而再把你的硬盘驱动器想象成一个0.5PB级的压缩包,而你需要10 Gb/s的读写速度。突发事件的处理能力非常重要。

  尽管这样,重复数据删除技术仍是一项关键技术。存储的需求不仅仅体现在对容量的需求迫切。更重要的是,当硬盘的容量增加了两倍的时候,网络I / O和磁盘速度并没有提高。

  这对于Raid重建时间和备份来说是存在巨大的潜在的灾难性。重复数据删除可以减少信息RAID或备份的数量,从而帮助以确保这些过程都发生在与业务需求相兼容的时限内。

  高风险业务

  这是假设你正在备份,重复数据删除技术会对完整的文件在数据块级别进行删除,并对这个事件的利弊都充分考虑一下吧。

  只对重删技术处理过的数据块进行备份,这就意味着更小的备份空间、更少的带宽,并且已备份的数据将不会再进行重复备份。但在另一方面,其明显减缓了恢复时间,并与整个备份介质联系在一起,不可分割。

  大多数人不会对进行重删之后删除的数据块进行备份,这对企业来说,存在很大的风险。备份介质出现一丝毫的损坏,那么整个备份介质上的数据都无法恢复。这就意味着企业需要很多的预算来保证带宽以每天都对未进行重删的数据进行备份。

  同时,你还必须考虑对未进行重删的数据进行备份所需要的存储I/O带宽,而不是存储在磁盘上所需的容量大小。磁盘上的数据量每天可能只增加了几十GB,而总存储I/O则迫使存储系统需要用几十TB的增加。

  注意跨度

  随着存储需求和供应之间的差距越来越大,重复数据删除技术将变得日益重要。但这并不会减少对网络带宽的需求,并还增加了额外的运算能力需求。

  我所期望的文件管理器,需要有两个高端的Xeon处理器和万兆以太网,并需要两个万兆以太网端口,以为提供MPIO(多路径IO管理)。

  文件管理器大小取决于其必须具备满足峰值需求的能力,必须支持快照、之前版本和其他一些有趣的功能,对于下一代存储所需要什么样的性能时,让我大伤脑筋。

  无论困难与否,必须花时间来研究。存储的成本和随之而来的网络带宽成本将会越来越高,我们当中很少有人能承担其突发错误后的代价。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Trevor Pott
Trevor Pott

Trevor Pott作为IT顾问,具有长达15年以上的专业经验,编写了各种技术类出版物。

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。