围绕AI的一切都很重要,尤其是固态硬盘(SSD)—用于存储训练AI的数据。
在2024年,领先的NAND闪存供应商(包括Kioxia、Micron Technology、Samsung、SK Hynix和Western Digital (WDC)–现在以SanDisk的名称运营)纷纷告诉他们的投资者,他们正在向超大规模数据中心客户尝试提供非常大的100兆字节固态硬盘。但是什么促使对如此巨大的固态硬盘的需求呢?
有些人可能会质疑,面对大量内部NAND闪存带宽,接口能否为处理器提供所有带宽。然而,这种演变并不是关于带宽;而是关于AI的巨大数据集,以及闪存比硬盘提供更大的延迟优势。
AI对高容量SSD的多米诺骨牌效应
根据WDC的数据表明,超大规模数据中心现在占该公司收入的87%。随着时间的推移,这种数据中心的增长,以及巨大的AI构建的出现,对WDC硬盘的平均容量产生深远的影响(见图1)。
超大规模数据中心正在采购大量最高容量的硬盘,但他们想要更快的速度,因此他们已经开始在存储架构中添加新的固态硬盘层。与硬盘一样,固态硬盘非常擅长将大量容量封装到小空间中,同时,与硬盘相比,固态硬盘为顺序数据提供更好的读取延迟。然而,超大规模数据中心希望这些固态硬盘具有极端的容量,而NAND闪存使他们能够做到这一点。
对于具体细节,我们可以转向Meta,他们发布了一份白皮书,比较四级单元(QLC)闪存固态硬盘与近线存储中的硬盘。这项研究使得该公司提议在HDD层和已经使用的三级单元SSD之间添加一个非常高容量的QLC SSD层。由于数据中心存在重大空间和能源问题,因此QLC闪存被认为可以减少空间需求,同时通过使用更少的芯片来最大限度地减少电力。
多大才算大?
那么,这些巨大的固态硬盘到底有多大?2025年初,SanDisk预计到2027年将有128 TB、256 TB和512 TB固态硬盘,未来某个时间将出现1PB(PB)固态硬盘。
考虑到这些设备的巨大容量,以及所有这些数据可能来自哪里,这非常令人惊讶,但大型语言模型训练集在以惊人的速度增长。加州大学伯克利分校的研究人员在他们的论文《AI和记忆墙》中发现,大型变压器模型中的参数数量每两年呈指数增长410倍。
如果大型变压器模型继续遵循这一趋势,那么到2025年,橙色箭头应该扩展到10万亿参数。如果每个参数使用4个字节,那就是40万亿字节,或超过300个SanDisk的128 TB固态硬盘。毫无疑问,存储任务将需要更多,例如检查站和临时存储。
现在,将这个数字乘以将运行如此大型模型的系统数量,数字就会变得巨大。
但由于SanDisk的路线图只显示SSD容量每年翻一番,如果负责构建AI系统的人不想每年增加10倍的SSD数量(更不用说成本和能源使用),就需要找到减少这些模型的方法。
巨大的固态硬盘不会便宜
128 TB固态硬盘的售价是多少?有些人试图通过简单计算,将他们为较小的固态硬盘支付的价格乘以128。这样算也有道理,因为与其他一些神秘的技术不同(例如高带宽内存(HBM)DRAM,它增加了惊人的技术复杂性,将巨大的内存挤进非常小的封装中),128 TB的固态硬盘预计不会使用任何非同寻常的东西,使其组装起来不会比大多数其他固态硬盘更具挑战性。
采用这种算法,预估价格放在40,000美元左右是合理的。当然,可能会考虑提高价格,但预计目前价格大致在该范围内。这很昂贵,但非常吸引人,特别是对超大规模数据中心来说,他们会发现它在成本模型中起作用,可以降低其系统的TCO。
物理尺寸如何?
在其白皮书中,Meta认为,使用当今领先的2兆比特(Tb)QLC NAND闪存芯片,可以制造出非常高容量的QLC固态硬盘,封装在32个模具堆栈中。这些堆栈并不是新鲜事物;几十年来,NAND闪存制造商一直在使用这种尺寸和更小的尺寸来压缩几千兆字节的microSD格式。
尽管如此,100 TB的固态硬盘将使用400多个2 TB NAND闪存芯片。对于单个固态硬盘来说,这需要大量的芯片,大约消耗了整个3D NAND晶圆的一半。然而,将它们封装成32个模具堆栈,将封装数量减少到仅13个包装,这使得它很容易装入一个小型的2.5英寸固态硬盘或U.2规格中。
其他计划使用更广泛可用的8模堆栈的人将需要一个可以存放四倍封装或大约50个封装的规格。在这种情况下,总是有标准的E1.L标尺规格,为这些封装留出足够的空间。
其他应用程序
另一个AI应用程序也需要这些高容量固态硬盘。有些本地数据中心处理敏感数据,这些数据不得传输到云端。这些数据中心希望保护他们的AI数据,包括训练和推理数据,采用与其他数据相同的安全级别。据SK Hynix称,对其Solidigm系列高容量QLC固态硬盘的部分需求来自这些数据中心。
鉴于各国已经建立本地AI数据中心,以保护其AI数据集的主权,个别企业和其他小型组织会采取类似的措施也就不足为奇。
三星和SK Hynix都指出,本地推理是超大固态硬盘的另一个大需求驱动因素。本地托管推理应用程序有助于减少推理过程的延迟。通过本地推理,应用程序会有更直接的响应。有些推理应用程序将需要这些巨大的SSD提供的高容量。
将SSD与GPU相匹配
由于AI数据集非常庞大,因此在将数据从存储移动到GPU时,需要专注于如何减少不必要的工作。设计师如何将固态硬盘的性能与它将满足的GPU的需求进行最佳匹配?
一种方法是NAND闪存技术供应商Phison的aiDAPTIV+ AI SSD系统,该系统允许预算意识的AI项目使用AI特定的SSD来减少AI训练系统中使用的GPU数量。Phison SSD必须经过专门设计,以满足AI特有的两个要求:它们必须提供极端的耐受性,SSD的串行数据流需要匹配GPU的HBM数据填充结构。Phison设计了专门的固态硬盘来针对这些参数,从而产生为很多工作负载提供令人信服的价格/性能点的系统。
随着时间的流逝,将SSD的I/O流与GPU的要求相匹配的概念肯定会成为流行的概念。
对于这个想法,SanDisk采取不同的方向:不是使用固态硬盘,而是通过创建专门设计的NAND闪存芯片来取代通常在GPU复合体中发现的部分甚至全部HBM DRAM(见图4)。从本质上讲,大型NAND闪存芯片通常旨在优化每千兆字节的成本,但被细分为几个较小的块,就像它们是独立的低密度NAND芯片阵列一样。这使NAND芯片的带宽倍增,既不改变其读取延迟,也不改变其缓慢而笨拙的写入方法。这有用吗?超大规模数据中心已经加入SanDisk来定义该产品这一事实表明,此类芯片可以解决某些AI问题。
SanDisk声称,具有8个24 GB HBM堆栈的GPU,总容量为192 GB,可以用512 GB高带宽闪存(HBF)堆栈取代这8个HBM中的6个,以达到3,120 GB,甚至可能可以用HBF取代所有8个HBM,使总内存大小为4,096 GB。毫无疑问,需要进行一些重新编码才能使这样的系统在新的内存类型中发挥最佳性能,但由于推理使用的内存写入比训练少得多,NAND闪存很可能是推理系统的方法。
虽然最后一个例子并不自动涉及巨大的固态硬盘,但大型固态硬盘可能会很好地补充它。然而,无论通过哪一条途径,很明显,大规模AI系统中基于NAND闪存的存储量将在未来几年以更快的速度增长,存储管理员肯定会发现他们的任务列表将因此而增长。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
作者
翻译
相关推荐
-
存储是你网络恢复策略的薄弱环节吗?
围绕大规模网络攻击的讨论,更多的是“何时会发生”,而不是“是否会发生”,对此,企业需要部署全面的网络弹性策略。 […]
-
如何为GPUaaS部署存储
企业级GPU可能是一项重大投资,并且,企业还需要投入资金为其提供电力和冷却。出于这个原因,很多企业正在转向GP […]
-
TB与GB:太字节比千兆字节大吗?
在20世纪70年代末和80年代初,1兆字节(MB)的存储成本可能高达10万美元,随后,在数据存储方面,容量开始 […]
-
RPO与RTO:关键区别
恢复时间目标和恢复点目标是两个基本指标,用于制定数据备份和恢复计划、业务连续性和灾难恢复以及运营弹性计划。RT […]