大数据分析和云存储是满足日益增长的文件级存储需求的两种技术。在这次2012芝加哥存储决策技术讲座采访中,Evaluator Group公司的高级分析师Randy Kerns讨论了文件级存储在数据中心的新趋势,机器生成数据(machine-generated data)以及它对存储的影响。
SearchStorage.com:为什么文件级数据的增长相对于块级数据迅速很多?
Kerns:两个原因:首先,许多用户使用一些特定的应用程序来存放自己或私人的数据,他们会通过电子邮件附件来存放这些数据,但更常见的是使用文件夹来存放。这让数据变得很大。
另一个原因是现在出现了许多与数据库应用不同的文件级的应用,这是之前没有的。现在你可以看到许多只使用文件的应用。
SearchStorage.com:传统的网络附加存储(NAS)仍然是处理不断增长的文件数据最高效的方式吗?
Kerns:从一定程度上说是这样的,并且你还需要扩展支持和运行的范围。如果你在一个时间点说:“我有这些文件,我需要更多NAS存储”,很多时候你会去购买更多的NAS系统。之后你必须去为这些NAS产品做一个费用摊销时间表,因为设备扩展的越多,你就需要为特定的平台中增加更多的存储容量。
许多用户会不断增加NAS系统,但这种扩展到了一定程度会有限制。由于在这些平台中没有全局的名字空间,所以我需要管理两个平台,然后是三个、四个、五个。它会不断增长,所以运行管理成本也会随之增加,数据的不断增加是一件很头痛的事情。
不断增加NAS无疑是一个正确的回答,但问题是你怎样增加。是增加独立平台的NAS系统?这不会是长久之计,因为这最终会变得非常昂贵。然后你可能会说,“好吧,也许我需要向外扩展NAS或集群NAS系统,或者我需要其它NAS文件虚拟化应用来整合多个NAS系统。”
SearchStorage.com:当我们讨论大数据时,我们最常谈到的是文件存储吗?
Kerns:是的。许多大数据,其实是大数据分析——记住这一点,因为你很可能将它们混淆。这些大数据是机器到机器(machine-to-machine)传输的数据信息,这涉及到了普适计算领域,在普适计算中,有许多东西会产生信息,这些需要被分析的信息是文件级的。所以,这很不同,它们之所以是文件级数据是因为它们产生的方式。你可以在不同系统工作时实时分析数据。
问题是你会如何处理这些数据?你有原始数据,以及处理过的中间数据和最终结果数据。显然,中间数据和最终结果数据是你想要保留的。这些可能是文件级数据,也可能不是。它们可以是数据库更新数据或类似那样的数据。但原始数据是文件级数据,而且很大。
你必须做出选择。有人说,“我已经看过了这些数据,所以把它们处理掉吧。”但大部分人,特别是IT人员会说,“等等,可能会有一些有价值的数据,让我们保留这些数据,我们可能会需要对它们做更多的数据挖掘。”所以,现在我拥有大量的文件级数据,尽管我已经对它们进行过分析处理,但我依然要保留它们。
SearchStorage.com: 我们经常听到“机器生成数据”,这对存储环境会有什么影响?
Kerns:这很简单。一台机器生成数据的速度比人更快。一些研究表明,在数据分析环境中的数据量是存储需求量的四倍,并且数据增长率在大数据分析或机器到机器数据出现前快。这就像一个存储容量的阶梯函数,一个非常大的阶梯,然后是扩展性的增加。所以,这对于IT来说是一件大事。
SearchStorage.com:集群NAS或向外扩展NAS在处理大量文件级数据时有多重要?
Kerns:我们之前好像讨论过这个问题。你现在面对的情况是数据量不断增加,如果没有一个单一平台去管理它们,比如说全局名字空间,那么管理和运行成本会变得非常昂贵。所以,集群NAS或向外扩展NAS是非常重要的。
另外一方面是财务的考量。我需要继续扩展,但当我购买了一个新的存储系统,它只有有限的寿命。所以,我可能买了一个具有四年或五年寿命的新存储系统,它有四年或五年的资金摊销时间表。这时当我开始扩展这个系统时,我需要引入另一个平台。因此我有了一个新的时间点和新的资金摊销时间表。
对新时间点的性能和容量扩展能力的评估变得非常重要。仅为现有的平台增加许多硬盘就会产生很多问题。先不说性能问题,设备之间生命周期的不均衡在财务上也会成为一个问题。这就是为什么向外扩展NAS或集群NAS那么重要,它们可以独立的扩展,也可以在到达生命周期时独立的下线。
SearchStorage.com:你觉得会有更多的用户使用在线文件共享服务吗?
Kerns:我觉得会有更多用户使用。但问题是,你会把什么样的数据放到线上?这点非常重要。很多公司对信息安全非常敏感,还有许多公司的带宽不足以支持使用在线文件共享服务。此外,还有许多用户不愿意使用在线共享服务的理由。但是,也有一些在全球部署该服务的案例,在全球范围共享对延时要求不高的指定内容的数据是很合适的。然而带宽的价格和可用带宽依然是一个问题。
SearchStorage.com: 对象存储是处理非结构化数据的好办法吗?
Kerns:是的,但用户需要提前知道一些事情。许多人对对象存储有固有的思维定式,认为对象级存储就是EMC Centera那样的存储。然而今天人们谈论的东西有了一些不同,他们讨论文件级存储,然后才是将附加的元数据添加进去。
这些附加的元数据才是真正的价值所在。我可以将包含保存周期、数据保护类型、删除授权和合规需求的元数据放在一起,并将这些元数据与文件关联起来,这才是今天的对象级存储。
因此,这依然是文件级数据,但由于它们位于不同的对象级存储中,这时那些附加的元数据就成为了关键信息。这些信息是怎么来的呢?你希望它们来自应用程序,然后被用户通过代理发送到存储。应用程序变化很慢,所以你需要一个中间系统生成元数据并放到对象级存储设备中,而NAS设备可以通过一个模板或其他规则做到。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
存储基础知识:三大公共云中的对象存储
大部分公共云存储是基于对象存储。块和文件在数据中心占主导地位,但在云端,对象存储才是王道,因为云端需要大量相对 […]
-
Microsoft Azure存储团队想要更简单的闪存设备
通过参与开放计算项目(Open Compute Project),这个云计算巨头正在联手其他供应商打造“定制S […]
-
NetApp Cloud Volumes完善OnTap文件存储
NetApp为企业提供了新方法来扩展OnTap文件存储到云端。 在上周NetApp Insight大会,该供应 […]
-
更新的IBM存储产品专注于成本节约和云计算
IBM公司为其存储产品组合增加了基于块的重复数据删除和基于云的分析。 该供应商计划在各种IBM存储产品中支持基 […]