[ DATA_STREAM: %E7%A1%AC%E4%BB%B6%E5%8A%A0%E9%80%9F ]

硬件加速

SCORE
9.2

Stratum:突破 MoE 内存瓶颈的 3D 堆叠 DRAM 协同设计方案

TIMESTAMP // 5 月.15
#3D堆叠内存 #MoE #大模型推理 #硬件加速 #系统架构

核心事件Stratum 提出了一种针对混合专家模型(MoE)的系统与硬件协同设计方案。该方案利用 3D 堆叠 DRAM 技术,通过优化专家参数的存储布局与动态调度,解决了大规模稀疏模型在推理过程中面临的内存带宽瓶颈与容量挑战,显著提升了吞吐量并降低了延迟。▶ 攻克“内存墙”:针对 MoE 模型参数量巨大但激活率低的特性,Stratum 通过 3D 堆叠技术实现了高带宽的专家切换。▶ 软硬协同优化:不仅是硬件堆叠,更通过系统层级的专家调度算法,最大限度减少了无效的数据搬运。▶ 性能飞跃:实验数据表明,该方案在处理超大规模稀疏模型时,比传统架构具有更高的能效比和响应速度。八卦洞察在 LLM 迈向万亿参数的进程中,MoE 已成为事实上的标准架构。然而,当前的硬件体系结构(如传统的 HBM 布局)在处理 MoE 这种“高容量需求、高带宽切换、低计算密度”的负载时显得力不从心。Stratum 的意义在于它标志着 AI 基础设施正从“通用算力竞赛”转向“存储架构的深度定制”。3D 堆叠 DRAM 不仅仅是容量的增加,更是将计算与存储在物理空间上拉近,这预示着未来 AI 芯片的竞争核心将在于谁能更高效地管理“稀疏性”带来的数据流动成本。行动建议对于 AI 芯片初创公司,应重点关注 3D-IC 和 Chiplet 架构在稀疏模型下的表现,而非盲目追求算力峰值;对于大模型部署团队,建议探索“专家感知”的调度策略,在现有硬件基础上通过软件手段模拟 Stratum 的数据局部性优化,以降低推理成本。

SOURCE: HACKERNEWS // UPLINK_STABLE