大数据架构下的存储考量

日期: 2014-02-12 作者:Sarah Wilson翻译:statfs 来源:TechTarget中国 英文

根据Toigo Partners International的CEO和负责人、数据管理协会(Data Management Institute)的主席Jon Toigo所言,人们过去认为大数据分析指挖掘大量数据以发现特定的信息这一过程,但是现在这个词更常用于一个更广的含义,泛指不断增长中的大量数据。

Toigo认为对象存储是成功实现大数据架构的最佳方式之一,因为它允许存储管理的粒度分级。他甚至将其视为“存储的未来”。但是当决定如何存储大数据时,他认为系统管理员必须首先考虑大数据的用途,比如,容量需求对于一个大数据架构来说可能要比私密性更为重要。

在这次与编辑助理Sarah Wilson的访谈中,Toigo分享了很多想法,如关于大数据是什么、最好的存储方法及大数据架构下存储管理员可能遇到的问题。可收听该访谈或阅读以下文本进行详细了解。

IT专业人士在大数据架构中将遇到什么样的存储挑战?

Jon Toigo:首先,我认为我们需要知道大数据意味着什么。我大概在四、五年前第一次听到这个词,它指多个数据库的联合,在某些情况下是将非结构数据集中到某种框架中,对实时分析做镜像。关键是我们要把所有数据集中起来。我们将数据彼此关联,然后在任何情况下我们都能让数据告知我们有哪些变化并给我们有用的信息。

一个典型案例是基于潜在恐怖分子的已知信息找到嫌疑犯,这些信息可以是他在不同国家的记录,航空预定数据库中有他所可能会乘坐的航线,如果他会租车并填充上炸药就需要为租车付钱,那么就可以找到他的租用信息,所有的事都能联系到一起。就像是在干草堆中找一根针,这就是大数据。另一个应用是通过查看死亡记录与汽车驾照、白页目录清单和投票注册数据库来找到潜在的投票作弊者,将所有的这些联合在一起就可以找到已注册投票的人中可能已经去世的人。

实质上这些是我们应用大数据分析的经典例子。而它们既表达了大数据是什么,又表达了大数据分析是什么。简单来说大数据就是将待分析的数据收集起来。现在,我听到很多厂商将大数据这个词用在所有事情上面。这是对我们所面对的真实情况的一个参考——我们获得了很多数据而且还在不断增长,大多数以文件的形式存在,而且我们在组织数据、存储数据以及高效低成本使用上都存在很多问题。所以就像如今很多词一样,大数据看起来被很多营销人员使用,而且现在无论这个词在市场营销部门眼中意味着什么,这个词对市场营销部门来说即是价值。

所以首要问题是确定“大数据”一词的含义。然后我们进入另一个问题集:弄清楚如何存储数据量越来越大的数据,并保存相对长时间;还是找到一个方式管理多个数据源,共同实现一些数据分析的目的。

所以如果你了解我说的是什么,这儿面临的挑战是,众所周知没有人对什么是大数据有很好的定义。

对于数据的超级大卷,对象存储为何备受欢迎?

Toigo:首先,我认为对象存储是存储的未来,这也是业内一致的意见。有很多厂商走在前沿,在宣传它。对象存储引领着下一代数据存储的变革。文件是唯一方法,目前在我们存储的数据中超过一半。他们主要是由用户进行控制,所以我们对文件内部是什么没有太多信息。这有点像是匿名数据。如果我们想要创建某种有组织的方法来存储一段时间的数据(或是通过分层技术迁移它们和从商业的角度来看它们的相关性)我们需要一个更细粒度的数据管理方式,这就是对象存储未来要做的。

从理论上讲,对象存储可以使得某些类型的大数据分析过程更加容易。对于那些关注元数据的工作(例如统计操作),对象存储消除与非结构化数据相关的一些问题,取决于你对面向对象系统本身的实现。它可以允许某些类型文件的混合和匹配,以及重组比较等等。一个叫Caringo的公司,我关注它有五年了,它做了件大事儿,很长一段时间内都在热情地宣传对象存储。

提醒的一点是,市面上的对象存储有很多不同的协议,部分原因在于流行性和时髦的大数据。像很多技术一样,业界似乎喜欢创造专属对象存储方法,即混合和匹配使用不同对象存储模式组织的数据。我认为可能会很痛苦。例如,使用云作为对象存储库,因为你会有多个云,每个云可能是围绕不同的对象存储模式进行组织,云间的数据共享难以实现。这可能是一个大障碍。

对象存储基本上是把一些额外值(把它当作一个额外的元数据结构)放在文件之上,给它一个独特的标识符,所以不会覆盖,你可以把它包括在某种形式的数据库结构中,这样你就可以移动、使用及引用它。举例来讲,国家安全局(National Security Agency)使用电话记录数据和他们之间的冲突,他们对电话中谈论的内容不感兴趣,他们感兴趣的是关系网或数据之间的关系。这是对象存储天生适合的地方:作为一种机制,来连接各个点并显示数据间的元数据关系,而不是数据本身的内容。某篇文章发表后,知道哪些人访问了网站对我来说并不重要,重要的是知道访问网站的人数。在这些地方,简单的计数操作可能代替文件内容的详细分析。所以我认为对象存储绝对是存储的未来。在我有生之年我们会达到那个阶段吗?我不知道,它可能只是像我们一直等待多时的全息存储那样。

除了对象存储之外,还有什么其他类型的存储适用于大数据环境?

Toigo:现在,再次重申,这取决于你想用你的大数据做什么。显然有一些实际问题需要考虑。例如,你可能需要一种方式来减少大数据的空间占用量,来限制存储容量需求和相关费用,这时你需要一种不影响你的对象存储方法的方式。所以如果你使用对象存储,如果您对这些面向对象的数据条目进行压缩、删除或其他处理的话,你获取信息时可能会困惑。这样可能会破坏数据,从分析的角度来看数据不可用。你需要非常谨慎:关于如何拿数据去做什么、怎么去存储它、减少数据的影响又将是什么。

另一个例子是进入大数据分析过程后的隐私的问题。可能有共享数据集的愿望。例如,在医疗保健行业的治疗方法,有多少人有某种特定类型的癌症和对于该类癌症的特效药是什么,但这属于那些健康记录的数据,在分享时有所限制。HIPAA(《健康保险携带和责任法案》)禁止披露病人的医疗保健信息。你不能有病人的名字、社会保险号或与数据本身有关的病人识别信息。对于国家安全局这也是一个问题。这是NSA监测项目背后的问题之一,对于卫生保健行业未来大数据的努力,也是一个大问题。

那么如何减少数据变更来修订敏感的东西,但不要稀释或伤害数据?从分析的角度来看,以这样一种方式处理数据,将减少它的价值。现代加密技术,这是一种一些人喜欢使用的保护隐私的技术,据我们所知,可能不能与大数据分析协同工作。我与Jeff Jonas聊天,他是IBM处理大数据的首席科学家。关于这个问题在大约一个月前IBM的边缘会议上,他表达了他所说的单向散列的必要性。对于那些不熟悉单向散列是什么的人来说,它是一种机制,可以保护数据有效性和完整性,但不包括数据的敏感细节。他这样描述:你可以给别人一些猪肉和磨床,他们可以用它来做香肠,但如果你给他们香肠和磨床,他们不能逆向工程出一头猪。这将是一个理想的方式,可以使用单向散列保留数据的价值没有透露不能共享的任何细节。所以我想说在技术上仍有改进的空间来确定我们共享数据的方式,以及存储它的方式。

最后,我总会说一些后续的计划。我扪心自问,如果这个大数据复合体(我们这个存储大数据的基础设施)是如此的重要和关键,当所有的存储设备面临各种问题时,无论是人为威胁或自然威胁,我们将如何保护它避免数据丢失或数据损坏?在没有弄清楚如何保证它的连续性、可用性和完整性之前,我不会去部署一个大数据复合体。所以换句话说,我不打算给你开这样一个处方来描述存储数据的最佳选项,即在你开始把数据扔上去之前,你最好铭记在心的注意事项。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Sarah Wilson
Sarah Wilson

Sarah Wilson,TechTarget网站编辑。

相关推荐