AI存储平台满足机器学习、数据分析需求

日期: 2019-11-03 作者:Chris Evans翻译:邹铮 来源:TechTarget中国 英文

在购买AI存储平台时,企业可以遵循多种方法。但重要的目标应该是找到一款产品,使企业能够更有效地收集数据并执行机器学习和AI任务。

在评估和选择AI数据存储产品时,关键问题包括:

  • 存储平台必须提供高性能和可扩展性,并可有效管理成本。
  • 性能必须包括提供高吞吐量以及实现低延迟性
  • 好的AI模型意味着需要整理数TB或PB级数据,这可能会很昂贵。企业必须意识到管理机器学习和AI平台的总体成本。

在深度学习中,机器学习算法可以在无监督的情况下运行,I / O配置文件会导致高度随机访问,因为深度学习算法的连续层处理多级别数据分析。机器学习和AI训练通常以批处理模式运行,在此模式下,数据科学家可以创建机器学习AI模型、通过数据测试模型并随时间推移完善模型。这种方法要求低延迟性,以确保快速执行,因为更短的模型测试时间意味着更多的迭代和更好的模型。

因此,企业在选择特定存储产品时,应考虑该产品所涉及的工作类型以及所需的机器学习和AI训练。无论哪种情况,存储的性价比都会付出一定代价。

多层方法

购买任何存储产品时,成本与性能都是关键考虑因素。在这种情况下,大多数公司将会选择购买最快的存储。但是,为获得性能需要付出代价,通常情况下,高性能系统不会扩展到数PB的范围。而且还要考虑这样的假设,即那些随时被分析的工作数据集将是整体数据资产的子集,并且,我们很容易会看到,存储分层是设计机器学习和AI数据存储的必要部分。

在机器学习和AI的情况下,分层到底意味着什么?传统的分层产品已从固定存储池演变为复杂的系统,该系统根据使用频率和可用池容量优化单个存储块的位置。但是考虑到数据的处理方式,这种方法并不适合机器学习和AI要求。

而自动化分层产品会考虑数据的生命周期对业务的重要性。新数据非常重要,并且将经常被访问。随着时间的流逝,数据的价值逐渐下降,可将其转移到成本更低、性能更低的存储中。

但用于机器学习和AI分析的数据不同。整个数据集都将保持活跃状态并可用于分析,任何时候都可能需要访问全部数据。这意味着使用中的数据必须位于具有一致性能的存储层,因为访问时任何可变性都会影响模型训练等活动。

在机器学习和AI模型开发中,数据处理的随机性意味着,响应性存储平台算法将不适用,这种算法会试图随时间动态重新平衡数据。这些算法会假定小部分且相对静态的工作集会随时间逐渐变化。在机器学习和AI中,数据访问配置文件将更加随机,这使得很难预测哪些数据需要缓存以及如何确定缓存大小或更快的存储层。

两层存储模型

为机器学习和AI工作负载部署存储的好方法是简单地使用两层模型。性能层可提供尽可能多的性能和最低的延迟,同时可根据系统预计处理的最大数据集进行扩展。

高性能闪存价格昂贵,并且随着市场转向容量闪存产品(例如三级和四级单元),在高性能端出现新市场,其中包括低延迟闪存产品,例如三星Z-NAND和东芝XL-Flash。这些产品补充了通过提供低延迟I / O而开发的存储级内存产品。例如,Vast Data同时使用四层单元和Intel Optane技术,为非结构化数据提供高性能、可扩展的存储,并具有NFS和S3 API支持。

这些Tier 0产品使用NVMe设备进行连接-无论在内部或跨存储网络。与传统的SAS和SATA相比,NVMe优化I / O堆栈或I / O协议。这样做的结果是更低的延迟和更大的吞吐量,同时由于服务器处理器不需要等待I / O完成,而提供更高的平台利用率。

Pure Storage AIRI、IBM Spectrum Storage for AI和NetApp All Flash FAS A80等产品都在内部利用NVMe来获得最高的媒体性能。Dell EMC和DataDirect Networks使用其产品线中的横向扩展文件系统产品来支持机器学习和AI参考架构。

容量层需要长时间安全地存储所有AI模型数据,这通常是几个月或几年。因此,提供高度持久性的可扩展平台至关重要,以管理机器学习和AI所需的数据量。现在,对象存储市场提供各种具有高度可扩展性和持久性AI存储产品。

什么是持久性?

在典型的存储系统中,数据通过模式受到保护,该模式会将冗余构建到磁盘上存储的数据中。如果单个组件发生故障,额外数据副本将用于恢复数据,并在故障组件被替换时重建数据。尽管RAID 5及更高版本为驱动器故障提供保护,但仍需要其他系统来抵御大规模灾难,例如数据中心中断。随着传统系统规模扩展,这种持久性或数据丢失缓解的成本会很高。

纠删码将冗余构建到数据中,因此,驱动器、服务器甚至整个数据中心的故障都不会造成数据丢失。纠删码数据的分散性质意味着,存储系统可以构建为扩展数PB级数据,并提供本地和地理数据保护,而无需承担管理多个系统的开销。

对象存储为必须长期(通常为多年)保留的数据提供可扩展性和持久性。但是,为了获得成本优势,对象存储产品是使用廉价存储构建–基于具有某些缓存功能的硬盘。这使得它们不太适合机器学习和AI数据的日常处理,但非常适合长期保留数据。

对于来自多个位置和来源的数据,地理位置分散的对象存储可从多个位置和来源提取和访问这些数据。例如,如果数据处理同时利用内部部署和公共云基础架构,则这可能会很有价值。地理分散是Scality Ring平台的特点,该平台与Hewlett Packard Enterprise和WekaIO公司的产品集成以创建两层存储架构。

混合存储架构

企业面临的挑战是:如何部署混合架构,既有高度可扩展存储又有高性能存储。对象存储系统使企业能够存储大多数数据,而有些产品则使用性能节点将活跃数据存储在具有高性能闪存的服务器。这种方法的优点是,可将容量或性能节点添加到产品中,以在这两个方面进行扩展。例如,Cloudian提供的硬件设备可同时提供可扩展性或性能功能。

那些由高性能存储构建的系统必须设计为可扩展处理整个数据集。在这些情况下,数据将移入和移出高性能平台,因为随着时间的推移需要处理多个AI数据集。

这种存储架构必须能够提供所需的网络带宽,为AI产品将数据移入和移出存储,并满足AI平台的要求。Nvidia DGX-1和DGX-2平台等产品每秒可消耗数十GB的数据。因此,为了跟上步伐,AI数据存储产品中计算与存储之间的连接必须是低延迟的InfiniBand或100 Gb以太网。

针对AI产品的软件定义存储

为机器学习和AI构建存储并不一定意味着要部署设备。现在有些新型高性能AI存储产品实质上是软件定义存储(SDS)。这些产品利用新媒体(包括NVMe)的性能优势,并且,在某些情况下还包括持久性内存或存储级内存。

SDS产品的优势之一是它们适用于公共云,因为它们可跨公共云基础设施被实例化和动态扩展。当基础架构的数量未知或仅在短时间内需要时,这种操作模型可能会很有吸引力。

WekaIO提供基于其Matrix软件的横向扩展存储平台,该平台可以部署在内部具有NVMe驱动器的服务器,或者部署在具有NVMe支持的Elastic Compute Cloud实例的AWS公共云中。Excelero NVMesh是另一种SDS产品,它可跨多个服务器和存储线性地扩展性能,它通常与IBM Spectrum Scale结合使用以创建横向扩展文件系统。

数据移动性

整合容量和性能层到单个产品中需要手动或自动流程,以在性能和容量层与元数据间移动数据,从而在数据移动时成功跟踪数据。某些AI存储产品可以直接与对象存储集成,以简化此过程。对于机器学习和AI开发,公共云会是很好的选择,因为数据在内部云服务间移动时不会产生存储费用。例如,WekaIO Matrix可以在内部和外部复制数据,并将其存档到对象存储中。

总结

如果企业想要为机器学习和AI工作负载部署本地存储,则必须考虑容量和性能。对于性能层,他们可以考虑从零开始构建,也可以部署封装产品,以有效地为机器学习融合基础架构。通过这种构建选项,企业可以部署本地设备或使用SDS。SDS使企业能够将存储部署为单独层或构建超融合基础架构。如果数据将保留在内部,则企业可以使用设备或按照软件定义的路线使用对象存储来部署容量层。

当转向公共云时,IT企业可以使用原生服务,例如对象存储和块存储。而文件存储还有很长的路要走,才能满足机器学习和AI应用程序的低延迟需求。企业更有可能会使用块存储,尤其是结合SDS或AI存储产品—添加文件服务层到原生块资源。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Chris Evans
Chris Evans

Chris Evans已经在IT行业工作了25年以上。早期的职业生涯始于大型机领域,然后进入存储和系统编程领域,专注于开放系统存储和目前流行的虚拟化和云技术。

翻译

邹铮
邹铮

相关推荐