警惕大数据的“黑暗”面

日期: 2017-04-16 作者:杨旭 来源:TechTarget中国

今天数据正在以前所未有的速度产生,每一个新的技术都将进一步推动这种趋势。物联网(IoT)、机器学习和医疗保健数字化,产生数据的速度很快就达到每秒数百万千兆字节。根据IMB的一项研究,自动驾驶汽车也将很快加入——到2020年每秒将生成350MB的数据。

数据的产生与收集已经在企业中根深蒂固,时刻上演着大量数居的记录与分析。但是,这些数据的存储库并不总是结构化和一致的。事实上,未知的和未使用的数据催生了一个新的术语——“黑暗数据”。

如果我们不改变存储、管理、结构和分析数据的方式,大部分数据都将变得毫无价值。IMB同一研究表明,今天收集的所有数据中有80%是“黑暗的”,也就是说,这些数据是无效和不连贯的。未来数据量越大,“黑暗数据”引发的黑洞也就越大,导致的问题与挑战就越严重。

存储和安全

最大的挑战是,“黑暗数据”不仅难以分析,而且也容易导致存储问题。大量的非结构化数据——MS Office文件、即时消息、电子邮件、社交媒体帖子等形式获得的数据就属于此范畴。

目前存储大数据的方式包括混合云、闪存存储、智能软件设计存储(I-SDS)和冷库归档。虽然存储本身相对便宜,但是大型数据中心的维护和能源消耗产生的成本可能是一个天文数字。

安全性是与数据相关的另一个问题——无论是存储在云上还是本地基础设施上。由于数据源繁多,以及分布式计算在数据分析中的普及,均为数据泄露提供了众多机会。

质量与数量

对于大数据来说,组织迫切需要关注质量数量。一般来说,数据集越大,其质量越低。这样清理数据将比分析数据涉及更多的工作。但是,通过仅收集有意义的数据可以减少这种精力消耗。组织应努力收集来自内部和外部来源的高质量数据。但是,这种尝试减少“暗数据”的收集并不总是可行的,在这种情况下,数据探索成为重要的一步。

数据探索是确定数据集质量的过程,即使我们不知道我们正在寻找什么,也能有效地从数据中提取知识。在大数据分析中,最小的错误可能会引发随后的错误计算,从而使整个分析无法使用。使用数据探索,分析人员可以识别在进行清洁和策划的昂贵且耗时的步骤之前可能存在的任何错误。

大数据分析肯定会在未来几年甚至几个月内发生变化。认知计算已经准备好利用人工智能挖掘出几乎零错误的短距离数据集。然而,尽管如此,减少和简化收集的大数据的需求仍然比以往任何时候都重要。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 云中数据存储需谨慎

    基于云计算的数据存储、云计算以及各种aaS形式的服务开始刷存在感,为本地基础架构蒙上了一层阴影。云服务既经济又容易使用——如果你知道诀窍的话。需慎重处理云计算问题,你可能会遇到熟悉的本地存储问题。

  • 利用多云存储降低云锁定风险

    多云存储的战略允许数据在不同公共云之间移动,从而避免被单个云提供商锁定,同时降低成本并提高工作负载运行效率。

  • 在灾难发生之前 控制数据存储的增长!

    数据已经有了自己的生命,并且一直在增长。是时候采取控制措施了。有大量的数据管理应用程序以及系统可以帮助限制和管理在企业周围浮动的数据量。例如复制数据管理(CDM)产品能很好地防止数据的激增,从而减少不必要的、不受管理的数据存储增长。

  • 在购置拷贝管理系统前明确你的业务所需

    拷贝管理技术用以收集管理包括备份、归档、测试以及部署环境在内的二级数据,同时降低存储成本。那么在评估拷贝管理系统之前,企业应该考虑哪些方面的因素呢?