分析师Randy Kerns谈文件存储的应用情况(含视频)

日期: 2012-08-28 翻译:周游 来源:TechTarget中国 英文

大数据分析和云存储是满足日益增长的文件级存储需求的两种技术。在这次2012芝加哥存储决策技术讲座采访中,Evaluator Group公司的高级分析师Randy Kerns讨论了文件级存储在数据中心的新趋势,机器生成数据(machine-generated data)以及它对存储的影响。

SearchStorage.com:为什么文件级数据的增长相对于块级数据迅速很多?

Kerns:两个原因:首先,许多用户使用一些特定的应用程序来存放自己或私人的数据,他们会通过电子邮件附件来存放这些数据,但更常见的是使用文件夹来存放。这让数据变得很大。

另一个原因是现在出现了许多与数据库应用不同的文件级的应用,这是之前没有的。现在你可以看到许多只使用文件的应用。

SearchStorage.com:传统的网络附加存储(NAS)仍然是处理不断增长的文件数据最高效的方式吗?

Kerns:从一定程度上说是这样的,并且你还需要扩展支持和运行的范围。如果你在一个时间点说:“我有这些文件,我需要更多NAS存储”,很多时候你会去购买更多的NAS系统。之后你必须去为这些NAS产品做一个费用摊销时间表,因为设备扩展的越多,你就需要为特定的平台中增加更多的存储容量。

许多用户会不断增加NAS系统,但这种扩展到了一定程度会有限制。由于在这些平台中没有全局的名字空间,所以我需要管理两个平台,然后是三个、四个、五个。它会不断增长,所以运行管理成本也会随之增加,数据的不断增加是一件很头痛的事情。

不断增加NAS无疑是一个正确的回答,但问题是你怎样增加。是增加独立平台的NAS系统?这不会是长久之计,因为这最终会变得非常昂贵。然后你可能会说,“好吧,也许我需要向外扩展NAS或集群NAS系统,或者我需要其它NAS文件虚拟化应用来整合多个NAS系统。”

SearchStorage.com:当我们讨论大数据时,我们最常谈到的是文件存储吗?

Kerns:是的。许多大数据,其实是大数据分析——记住这一点,因为你很可能将它们混淆。这些大数据是机器到机器(machine-to-machine)传输的数据信息,这涉及到了普适计算领域,在普适计算中,有许多东西会产生信息,这些需要被分析的信息是文件级的。所以,这很不同,它们之所以是文件级数据是因为它们产生的方式。你可以在不同系统工作时实时分析数据。

问题是你会如何处理这些数据?你有原始数据,以及处理过的中间数据和最终结果数据。显然,中间数据和最终结果数据是你想要保留的。这些可能是文件级数据,也可能不是。它们可以是数据库更新数据或类似那样的数据。但原始数据是文件级数据,而且很大。

你必须做出选择。有人说,“我已经看过了这些数据,所以把它们处理掉吧。”但大部分人,特别是IT人员会说,“等等,可能会有一些有价值的数据,让我们保留这些数据,我们可能会需要对它们做更多的数据挖掘。”所以,现在我拥有大量的文件级数据,尽管我已经对它们进行过分析处理,但我依然要保留它们。

SearchStorage.com: 我们经常听到“机器生成数据”,这对存储环境会有什么影响?

Kerns:这很简单。一台机器生成数据的速度比人更快。一些研究表明,在数据分析环境中的数据量是存储需求量的四倍,并且数据增长率在大数据分析或机器到机器数据出现前快。这就像一个存储容量的阶梯函数,一个非常大的阶梯,然后是扩展性的增加。所以,这对于IT来说是一件大事。

SearchStorage.com:集群NAS向外扩展NAS在处理大量文件级数据时有多重要?

Kerns:我们之前好像讨论过这个问题。你现在面对的情况是数据量不断增加,如果没有一个单一平台去管理它们,比如说全局名字空间,那么管理和运行成本会变得非常昂贵。所以,集群NAS或向外扩展NAS是非常重要的。

另外一方面是财务的考量。我需要继续扩展,但当我购买了一个新的存储系统,它只有有限的寿命。所以,我可能买了一个具有四年或五年寿命的新存储系统,它有四年或五年的资金摊销时间表。这时当我开始扩展这个系统时,我需要引入另一个平台。因此我有了一个新的时间点和新的资金摊销时间表。

对新时间点的性能和容量扩展能力的评估变得非常重要。仅为现有的平台增加许多硬盘就会产生很多问题。先不说性能问题,设备之间生命周期的不均衡在财务上也会成为一个问题。这就是为什么向外扩展NAS或集群NAS那么重要,它们可以独立的扩展,也可以在到达生命周期时独立的下线。

SearchStorage.com:你觉得会有更多的用户使用在线文件共享服务吗?

Kerns:我觉得会有更多用户使用。但问题是,你会把什么样的数据放到线上?这点非常重要。很多公司对信息安全非常敏感,还有许多公司的带宽不足以支持使用在线文件共享服务。此外,还有许多用户不愿意使用在线共享服务的理由。但是,也有一些在全球部署该服务的案例,在全球范围共享对延时要求不高的指定内容的数据是很合适的。然而带宽的价格和可用带宽依然是一个问题。

SearchStorage.com: 对象存储是处理非结构化数据的好办法吗?

Kerns:是的,但用户需要提前知道一些事情。许多人对对象存储有固有的思维定式,认为对象级存储就是EMC Centera那样的存储。然而今天人们谈论的东西有了一些不同,他们讨论文件级存储,然后才是将附加的元数据添加进去。

这些附加的元数据才是真正的价值所在。我可以将包含保存周期、数据保护类型、删除授权和合规需求的元数据放在一起,并将这些元数据与文件关联起来,这才是今天的对象级存储。

因此,这依然是文件级数据,但由于它们位于不同的对象级存储中,这时那些附加的元数据就成为了关键信息。这些信息是怎么来的呢?你希望它们来自应用程序,然后被用户通过代理发送到存储。应用程序变化很慢,所以你需要一个中间系统生成元数据并放到对象级存储设备中,而NAS设备可以通过一个模板或其他规则做到。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐