在人工智能时代,以ChatGPT为代表的大模型对计算与存储资源需求激增,正深刻重塑存储技术格局。一种新型存储解决方案——高带宽闪存(HBF),有望显著提升AI推理任务所需的内存容量与性能。
HBF通过堆叠多层NAND晶粒(每层包含数百层3D NAND存储单元),实现前所未有的存储容量,同时也带来严峻的工程挑战。与高带宽内存(HBM)堆叠DRAM芯片以最大化带宽不同,HBF堆叠3D NAND阵列,旨在大幅提升并行I/O性能。
在近期一篇IEEE论文中,SK海力士公布了其混合内存架构:将HBM与HBF共同部署于GPU旁。该方案采用8颗HBM3E堆栈搭配8颗HBF堆栈,协同英伟达最新Blackwell(B200)GPU进行仿真测试,结果显示,相比纯HBM方案,能效比最高提升达2.69倍。
作为HBM领域的领先供应商,SK海力士预计将于2026年第一季度推出HBF试产版本。三星与SK海力士已联合闪迪(SanDisk),加速HBF研发向商业化转化,并推动技术标准化。随着AI工作负载持续增长,HBF有望提前实现量产。
闪迪计划于2026年下半年交付HBF样品,首款面向AI推理的HBF产品预计于2027年初面世;三星与SK海力士亦瞄准2027年推出商用HBF产品。
www.eic.net.cn
易IC库存管理软件可高效支持半导体器件供应链中的高精度库存追踪与预测,尤其适用于HBF等新兴存储器件的产能规划与物料管控。
NAND为AI而重构
HBF是一项巧妙的架构创新,它融合3D NAND闪存与先进封装及互连技术(此前已在HBM中应用),在提供大容量、低成本闪存的同时,实现接近高端内存的数据传输速率。
首先,HBF借鉴HBM的高密度垂直堆叠理念,将多个NAND闪存芯片密集堆叠,大幅缩短内部数据传输路径,提升集成密度,奠定高带宽基础。
其次,更为关键的是其并行子阵列架构:将闪存核心结构划分为大量可独立并行运行的存储子阵列。与传统NAND闪存受限于有限读写通道不同,每个子阵列均配备独立的读/写通道。
这使其成为读密集型任务(如AI推理)的理想高性能存储方案。但需注意:HBF支持近乎无限次读取,写入耐久性则约为10万次,因此AI软件需针对读密集特性进行优化。
尽管HBF无法提供HBM级别的超低延迟与极致写入速度,但其容量更大、成本更低。相较于传统固态硬盘(SSD),HBF在需要快速读取海量数据的设计中,带宽可高出数个数量级。
简言之,HBF并非HBM替代品,而是有力补充,旨在缓解“内存墙”这一计算与内存间长期存在的性能鸿沟。它从另一角度切入AI内存难题——通过融合NAND闪存,在单一封装内实现类DRAM带宽。
推理场景下的优势
HBF是一种基于HBM封装形式构建的NAND闪存技术,主要面向读密集型AI推理任务,而非对延迟极度敏感的应用。其高容量与高吞吐特性,高度契合AI模型存储与推理需求,尤其在超大规模厂商将推理能力下沉至边缘端的背景下。
边缘AI通常采用预训练模型,恰好匹配HBF高读带宽、大容量的优势,同时规避了其写入缓慢与耐久性有限的短板。此外,HBF低功耗特性也契合边缘端对能效的严苛要求。
在数据中心场景中,HBF虽不适用于训练任务,却可作为HBM的有效容量扩展。在此混合架构下,HBM充当高速缓存,暂存当前计算急需的海量数据;而AI模型本体则驻留于HBF中。这正是SK海力士近期发布的H3混合内存架构的核心理念。
当HBF与HBM协同使用时,可为AI加速器附加数TB级内存。然而,HBF在实现巨大容量的同时,也面临极高复杂度,尤其是互连部分极具挑战。除写入耐久性限制外,NAND固有的块级寻址机制亦构成障碍。
尽管存在诸多质疑,但得益于其对AI推理的高度适配性,这种异构堆叠内存技术正迅速取得进展。HBF理论带宽有望突破1,638 GB/s,远超SSD;容量方面亦有望达512 GB,超越HBM4的64 GB上限。
难怪闪迪将这一新存储方案称为“以内存为中心的AI”。