前段时间网络上最火的当属柴静的雾霾调查,近年来肆虐大江南北的雾霾引起了很多人对环保、对生活的思考。从主观意识角度而言,个人少开一天车,企业降低污染排放,林区多种树、少砍伐,政府建立相关告警和管理制度都会或多或少为环境出力。但要想真正的治理雾霾,必须制度化、法律化。什么情况下,工厂需要暂时停工,什么情况下,要减少木材的砍伐,并不能仅凭感觉,这样做未免任性。我们需要的是数据说话。
大数据对于环保功不可没
谈起数据这个话题,又涉及到了另外一个热词,那就是“大数据”。很多企业和政府部门已经搞了多年的信息化,并且认识到了数据是企业的生命力。随着多年的发展,企业的数据已经足够“大”,“大数据分析”这个词也便有了实际意义。淘宝和京东等电商网站的商品推荐,大型超市将啤酒和纸尿裤放在一起的货品摆放只是大数据的初级应用。在环保领域,大数据分析也已经深入其中。
我们国家环境保护部的官方网上2014年曾摘引过顾伟伟大数据与环保的相关文章。在云计算和互联网的推动下,环境相关数据林林总总,通过相关环保应用,从这些数据中发现具有规律性、科学性和有价值的环境信息,建立环境数据中心,才能为环境部门的日常管理与科学研究做出贡献。
对于环保而言,大数据能帮什么忙呢?预测性分析应该是大数据的重要贡献,也就是从大数据中挖掘出独有特点,通过建立评估和预测预报模型,预测未来发展趋势。其次,是精准锁定,实现对污染企业的有效锁定。在污染源的生命周期过程中,每个节点所需要的每一类数据,都可以进行搜集分析,形成基于污染源管理的数据资源分布可视图。这就如同电子地图一般,哪里有问题,轻轻一点便知晓。另外,还可以通过采集社交信息数据、公众互动数据来提升环保部门对公众的服务能力,为公众提供更多便利。
大数据在环保方面的应用已经不仅仅处于理论论证阶段。2014年4月,IEEE Spectrum Alert上发表过一篇文章,详细介绍了一个将大数据用于环境保护的案例。简而言之就是开发了一个森林映射工具,当大片森林被砍伐、被破坏时,对监视者发出声响警告。当森林中一颗树倒了,不但有一声响,而且,计算机发出一个警告给研究人员和环境政策制定者。
这件事听起来轻松但做起来不易,要从杂乱无章的特殊格式的卫星数据里找到那块特定的森林,从图像上识别刚倒塌的那颗树,又要实时地送给相关人士以警告,技术难点很多。从数据采集、数据集中、数据存储,再到数据分析和数据传输,每一步需要的都是高科技支持。
存储:做大数据分析的最佳支持者
谈到数据分析,无论是数据库采集、数据分析运算都离不开存储。这是数据存储在的场所,就像一个数据池子,要从中捞取合适的数据进行计算分析,最终得出结论。
而说到存储对大数据的支持,传统的数据存储手段还是颇有障碍的。我们不妨到企业的数据中心中看看。经历了多年的发展,无论是何种类型的企业,包括环境保护中各个环节的相关单位,都会有一个难题,那就是数据分散和数据孤岛问题。由于组织内部信息化进程并不是同步的,各个部门又根据自身特点,有特定的应用。一个组织内部有五六套系统,各有自己的存储,不足为奇。
大数据分析要实现的第一步就是将这些数据集中起来,从相关联的数据中找到规律。此时我们面临的难题是数据迁移和异构存储问题。而解决办法则是最近几年谈的最多的“软件定义存储”。从2013年EMC发布ViPR大力推广软件定义存储概念到2015年初IBM推出IBM Spectrum揭开软件定义存储2.0时代,软件定义存储已经受到国内外用户的广泛关注。调研机构中桥国际针对软件定义存储市场需求的调研数据显示,软件定义存储将快速成为用户评估新存储采购的重要考核指标之一。究其原因,企业用户需要解决当前面临的异构存储难题。
中桥调研分析师表示,中国用户希望的软件定义存储,不仅要能够跨异构存储资源,也要能跨各种云资源实现集中统一管理;不仅能提高异构存储资源的使用管理效率,也能最大限度提高混合云演进过程中的业务连续性;不仅支撑x86 技术,也能将小型机融入软件定义存储平台。软件定义存储的真正价值是让用户能根据工作负载需求,动态配置资源、智能监控性能、流线型在线升级扩展、细粒度化资源优化,降低存储配置、管理和运维难度,优化存储生命周期的使用效率。
简而言之,用户希望通过软件定义存储继续发挥各时期采购存储的价值,同时实现数据的自由迁移。IBM在今年2月发布最新的软件定义存储平台时表示,“其IBM Spectrum Storage和Spectrum Accelerate整合了IBM SVC成熟的互操作和跨平台能力及XIV的智能、易管理(Zero-tuning)和企业级功能,同时整合了SoftLayer云资源和服务管理平台。”
在实现了数据大集中之后,接下来便是大数据分析了。大数据分析一般分为“离线处理”和“实时处理”两种模式,像上文提到的森林映射工具,显然采用实时处理更有利于在第一时间获得分析结果并发出响应。根据摩尔定律,处理器和内存的性能每18个月就会翻番。与多核处理器、虚拟化及不断增长的网络速度相比,存储性能显然是拖了后腿。要在最快的时间将最准确的数据传给CPU,实现高IOPS,全闪存阵列是绝佳的选择。另外,在数据仓库的应用中,80%的访问都集中在数据仓库中20%的数据。如果将这频繁访问的20%的数据置于全闪存阵列中,就能够解决很多问题。在存储架构加入新的全闪存阵列后,也可以通过软件定义存储进行统一管理。
参考阅读:如何选择最适合的软件定义存储产品
结语
环保是一个融合了政策、科技、管理为一体的话题,IT永远是环保最有利的支持体系。为了摆脱雾霾,重获蓝天,不但每个公民要身体力行,还需要精确的数据分析为法律法规做支撑。存储,作为大数据分析的后援团队,更需要不断升级,以高性能、软件定义等特性为数据高效管理作保证,为穹顶之下的蓝天贡献一份力量。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Pure Storage推出ObjectEngine备份设备
闪存存储先驱Pure Storage公司开始进入云备份领域,让客户可对亚马逊云计算服务(AWS)上的数据进行重 […]
-
Microsoft Azure存储团队想要更简单的闪存设备
通过参与开放计算项目(Open Compute Project),这个云计算巨头正在联手其他供应商打造“定制S […]
-
NetApp闪存产品深入云、边缘和物联网
新的NetApp闪存存储开始瞄准Docker环境和对象存储,而原本这些技术主要依靠旋转磁盘。 在NetApp […]
-
销毁SSD和保护数据的关键步骤
SSD技术正在迅速发展。随着价格下降,速度和容量继续增长,SSD在存储市场获得更强的立足点。尽管它们有着较长的 […]