重复数据删除,至少是针对备份数据的重复数据删除技术,已经进入主流行列。不过,”重复数据删除”这个术语的应用范围是那些一次性存储数据的技术,即使这些技术被告知要存储这些数据许多次。由于所有这些技术对于所存储的数据来说都很敏感,因此”每个人的情况都有所不同”。随着2010年结束,我觉得在这里可以分享一些对重复数据删除技术的心得。
一定要确保你的重复数据删除解决方案支持你的备份解决方案。虽然大多数重复数据删除系统可以在某个强制指定的数据流中发现重复数据,但是如果让系统知道数据背景的话,大多数系统可以得到更好的结果。基于哈希算法的重复数据删除系统将数据分解成各个块,然后剔除重复的数据块。虽然它们在每个新文件的开头都会起一个新块,不过大多数备份应用程序是将数据存储在汇总文件内的,比如Unix tarball或ZIP文件。
如果你的重复数据删除系统知道你的备份程序所使用的汇总文件格式,它可以在来自备份的来源数据流中给每个文件起一个新块。这可以让系统分辨出更多的重复数据。除了你的数据,汇总文件还包含备份程序用于加速恢复流程的索引信息。如果你在固定块重复数据删除系统上存储备份数据,和大多数对数据进行重复数据删除的主存储系统一样,这个索引信息可能会切换数据从而导致系统不知道今天的备份包含和昨天一样的数据。
一定要在同一个重复数据删除池中保存类似的数据源。如果你的重复数据删除系统不能在单个池中存储你的所有数据,你可以将数据分割,从而让系统在同一个池中承载类似的数据。你可以将文件服务器放在一个池,将Oracle服务器放在另一个池。比起将所有纽约办公室的数据都放在一个池而将所有芝加哥办公室的数据放在另一个池的做法来说,按文件类型划分的做法可以获得更好的重复数据删除效果。
不要在将数据发送给重复数据删除设备之前给数据加密。加密算法会将相同的数据明文加密成完全不同的密文。这样会导致你的重复数据删除设备无法发现重复的数据。数据压缩也会导致同样的结果,因此你最好将压缩流程放到后端重复数据删除设备上而不是备份软件上。
在你将数据从重复数据删除设备上复制到磁带然后离站送到外面或在互联网上远程复制数据的时候,一定要记得对数据进行加密。
不要在虚拟磁带库上使用多路复用技术。我认为多路复用是一种不好的技术,它的时代已经过去了。将来自多个速度慢的服务器备份整合到一个单一的快速磁带驱动器在某些情况下是有用的,比如说当我们备份到磁带并且必须保持磁带驱动器的数据吞吐量的时候。不过,不管有没有配置重复数据删除技术,磁盘系统都可以接受低于最高吞吐量的数据,不会有什么问题发生,因此这种情况下没有必要使用多路复用。
遵守这些简单的小贴士,你的重复数据删除可以更有效率,你的数据可以在磁盘上保存更长时间并易于管理,不用每隔几个月就得买更多的用于重复数据删除系统的磁盘驱动器。
本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
简单可靠的平面备份技术
在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。
-
专家答疑:重复数据删除在云中是如何工作的?
重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。
-
全闪数据中心的数据缩减攻略
全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。
-
存储采购并非易事
硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。