企业级GPU可能是一项重大投资,并且,企业还需要投入资金为其提供电力和冷却。出于这个原因,很多企业正在转向GPU即服务(GPUaaS)来处理其大数据工作负载。
随着越来越多的企业部署人工智能和高级分析,对高性能计算(依赖GPU)的需求越来越大。然而,IT团队必须弄清楚如何部署和维护存储,以支持GPUaaS举措。
GPUaaS是一种基于云的产品,它虚拟化GPU,并使其作为按需、可扩展的服务提供,用户可以通过互联网或专用网络使用,类似于其他类型的云服务。GPUaaS为企业提供了一种便利的方法,企业无需投资昂贵的物理基础设施即可进行高性能计算。客户还可以在他们的私有云中部署GPUaaS。
很多公共云提供商现在提供GPUaaS功能,这有很多优势。客户可以获取计算能力,而无需管理开销或长时间延迟。服务提供商管理系统,保持系统运行,并在必要时进行更新。用户可以扩展和缩减服务,并从他们有互联网连接的任何地方连接到服务,从而提高生产力和整体灵活性。
尽管有好处,但IT团队必须安全地存储数据;确保GPU服务在需要时随时可用,无论数据量如何;优化性能,同时尽量减少敏感信息的风险。
GPUaaS存储的最佳做法
在为 GPUaaS 部署存储时,IT 团队通常会处理位于多个位置的数据。当团队在规划其GPUaaS存储和数据策略时,这种复杂性可能会使其难以开展工作。在这里,我们提供了7个最佳做法。
1.了解你的存储和数据需求
在开始重新利用硬件或投资新的云服务之前,你应该清楚地了解这个项目目标和目的,因为它们与GPUaaS计划的存储有关。了解你试图解决哪些问题,以及对项目的总体期望是什么。你可能需要定义服务级别协议,以保证性能、可用性、安全性或其他交付成果。
在定义你的存储和数据要求时,请尽可能具体,特别是在性能方面。你需要了解你的存储和网络应该提供多少吞吐量,以及你的组织可以容忍的延迟水平。你还需要了解短期和长期预计要存储多少数据,以及你的组织将如何访问和使用这些数据。
2. 盘点和评估现有系统和运营
收集有关你当前使用的存储系统和服务的详细信息,其容量和性能情况、它们如何配置以推动数据传输和跨系统通信,以及支持这些传输和通信的网络情况。你还应该了解这些系统和服务是如何进行维护,包括推动管理和互操作性的工具。
请确定你是否可以利用这些资源来支持 GPUaaS 工作。如果是这样,你需要知道将它们重新用于GPUaaS需要做些什么调整,以及可能需要哪些额外的资源来增强现有基础设施。评估重新利用可能对现有系统或运营产生的影响。
3. 盘点和评估现有的数据工作流程
识别你的数据源、数据管道的运行方式、存储位置以及数据的数量和类型。检查你的提取、转换和加载操作,以便你了解数据是否以及如何被修改。如果你已经制定完善的数据管理和治理策略,其中大部分信息应该随时可用。
当你对数据工作流程有了完整的了解,你就可以评估你是否可以以某种方式修改或利用它们来适应你的GPUaaS工作。同时,请评估这些修改如何可能影响你的存储基础设施以及其他系统或操作。
4. 制定GPUaaS存储和数据策略
制定一个全面的计划,确定哪些系统和服务应该添加或重新用于适应GPUaaS工作流程。为此,你必须确定存储类型、存储格式和数据所在的位置。考虑带宽和延迟要求,以及与可扩展性、可用性和容错相关的问题。
研究各种优化环境的方法。例如,你可以使用分布式或并行文件系统,或实现分层或缓存。以其他方式优化你的运营,例如使用Nvidia的GPUDirect存储、调整PCIe设置或使用支持NVMe或NVMe-oF的存储驱动器。规划过程应包括仔细的成本评估,以分析总拥有成本和投资回报率。最后,创建详细的推出策略,当你准备好继续前进时,你可以遵循该策略。
5. 制定数据工作流程策略
考虑安全、隐私、成本和性能等因素,确定数据的位置,因为这与数据和GPUaaS平台的距离有关。决定是否你处理任何数据,如果是,何时何地进行预处理。
规划你的工作流程可以帮助你拥有正确的存储空间,并为数据迁移和同步操作做好更好的准备。当你制定好工作流程策略,请彻底测试你的操作,以验证它们是否取得最佳效果。
6. 整合数据管理和治理
新获取或重新利用的存储和新的数据源不应影响你管理数据(在数据的整个生命周期内)的能力,无论数据位于何处或是否存储在数据湖等中央存储库中。即使支持GPUaaS,你也应该能够对数据进行编目,并跟踪其数据血统。
适当的数据保护措施至关重要。这些可能包括在静止和移动中加密数据、强制执行精细访问控制、实施身份管理或部署网络分段。同时,请确保你的存储和数据管理策略符合适用的法规,并且你已实施灾难恢复计划,以确保业务连续性。
7. 持续监控和优化你的系统
你的管理工具应该为你提供存储和数据环境的完整可见性。他们还应该支持实时警报和通知,并能够生成全面的报告,这些报告可以轻松与关键参与者共享。
你的企业应该能够对你工具收集的信息迅速采取行动,以便你可以尽可能快速有效地排除故障并解决安全威胁、异常行为、性能问题、服务中断或其他问题。持续监控还可以帮助你跟踪和优化成本,并确保符合适用法规。
GPUaaS的存储挑战
尽管有优势,但为GPUaaS设置存储可能会带来很多挑战,包括以下:
- 操作复杂性。解决工具、标准、平台和操作方面的差异可能既困难又耗时,通常需要高级技能和专业知识。同时,缺乏对公共云环境的完整可见性,可能会增加这种复杂性。
- 性能和可靠性。存储系统和网络有时很难跟上GPUaaS平台的需求,必须持续监控和优化以保持所需的性能。
- 数据本地化和移动。如果数据存储在与GPU服务器不同的地理位置,可能会导致数据传输速度变慢和延迟时间变高。仔细规划数据的位置和移动,以减少瓶颈的可能性。在某些情况下,你可能需要将数据与GPU服务器方在同一云平台上,以确保必要的性能。
- 数据管理和治理。在多个环境中维护大量数据,可能会使企业难以正确管理数据,以及确保必要的治理。治理不善会增加数据完整性、安全或合规性问题的风险。
- 可扩展性和容量管理。如果你的GPUaaS工作负载以意想不到的方式增长和波动,存储系统可能无法提供必要的性能和容量,特别是在处理大型数据集时。频繁的迁移和同步可能会进一步加剧这个问题。你的存储系统和连接网络必须设计为可扩展性。
- 系统和数据可见性。如果没有适当的可见性,企业可能会遇到性能问题或运营中断,或者使其数据面临安全漏洞和合规违规的风险。IT团队需要部署必要的工具来监控他们的系统,并获得实时见解,以在影响运营之前跟踪和解决问题。
- 技能和专业知识。如果企业没有投资技能(无论是通过培训、引进专家还是其他方式),都可能影响绩效、运营、安全、合规性和数据可访问性。为GPUaaS和数据基础设施部署存储以支持这一举措可能是一项复杂的任务,必须平衡各种组件。
- 成本管理。数据越分散,管理和优化成本就越困难。当你的企业需要处理不断增长的数据量,并需要以不同的方式管理和存储数据时,这个问题就变得更加具有挑战性。与此同时,IT团队必须持续提供GPUaaS所需的高吞吐量和低延迟。在考虑分层存储、驱动器类型和存储格式等选项时,应将成本优化纳入项目的早期规划中。
供应商如何应对
Nvidia凭借其企业级GPU一直处于GPUaaS趋势的最前沿,这些GPU广泛用于企业数据中心和大型超大规模化公司。很多提供GPUaaS的云提供商使用Nvidia GPU作为其服务的主要组件。Google Cloud、Rackspace、Hyperstack、Liquid Web和Lambda Labs也提供基于Nvidia基础设施的虚拟GPU服务。
为了推动GPU连接,Nvidia提供GPUDirect Storage,这项数据技术使用NVMe或NVMe-oF等行业标准协议,使本地和远程存储系统能够直接与GPU内存通信。GPUDirect存储使直接内存访问引擎能够将数据移入或移出GPU内存,而无需CPU。
Nvidia还提供虚拟GPU(vGPU)软件,用于虚拟化Nvidia GPU,并在多个虚拟机之间共享。例如,IT团队可以使用VMware Cloud Director与vSphere平台和Nvidia的vGPU软件结合使用,为其企业创建GPUaaS环境。
联想提供GPUaaS服务作为其TruScale基础设施模型的一部分,使客户能够按需提供GPU服务。TruScale使用Nvidia GPU,例如H100和L40S。戴尔和慧与Nvidia合作,提供类似的服务,使企业能够将GPUaaS纳入其私有云中。像联想一样,戴尔和慧与正在推动将AI计算引入企业。
Nvidia GPU也在Scan Computers的最新产品中发挥作用,Scan Computers提供GPU加速的AI计算产品。该公司最近宣布,他们已与Peak:AIO和Micron Technology合作,提供一系列人工智能数据服务器。
Peak:AIO是一个软件定义的存储平台,针对GPU利用率进行了优化。该软件使用Nvidia的GPU直接存储技术,支持多达10台配置了Nvidia GPU的数据服务器。Scan Computers对其Peak:AIO系统进行了广泛测试,通过利用各种Nvidia认证的服务器架构,包括DGX、HGX和EGX。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
TB与GB:太字节比千兆字节大吗?
在20世纪70年代末和80年代初,1兆字节(MB)的存储成本可能高达10万美元,随后,在数据存储方面,容量开始 […]
-
RPO与RTO:关键区别
恢复时间目标和恢复点目标是两个基本指标,用于制定数据备份和恢复计划、业务连续性和灾难恢复以及运营弹性计划。RT […]
-
Broadcom停止VMware的vVols存储功能
Broadcom将不再提供通过外部存储平台连接和管理VMware的功能。 该供应商表示,他们将弃用VMware […]
-
闪存、AI和云:Pure Accelerate大会的3个IT重点
对于IT专业人士来说,各种会议活动为他们提供了绝佳的机会,以衡量技术选项的状态,以及了解他们自己与同行的差距。 […]