[ INTEL_NODE_28872 ] · PRIORITY: 9.2/10

Stratum：突破 MoE 内存瓶颈的 3D 堆叠 DRAM 协同设计方案

● PUBLISHED: · SOURCE: HackerNews →

[ DATA_STREAM_START ]

核心事件

Stratum 提出了一种针对混合专家模型（MoE）的系统与硬件协同设计方案。该方案利用 3D 堆叠 DRAM 技术，通过优化专家参数的存储布局与动态调度，解决了大规模稀疏模型在推理过程中面临的内存带宽瓶颈与容量挑战，显著提升了吞吐量并降低了延迟。

▶ 攻克“内存墙”：针对 MoE 模型参数量巨大但激活率低的特性，Stratum 通过 3D 堆叠技术实现了高带宽的专家切换。
▶ 软硬协同优化：不仅是硬件堆叠，更通过系统层级的专家调度算法，最大限度减少了无效的数据搬运。
▶ 性能飞跃：实验数据表明，该方案在处理超大规模稀疏模型时，比传统架构具有更高的能效比和响应速度。

八卦洞察

在 LLM 迈向万亿参数的进程中，MoE 已成为事实上的标准架构。然而，当前的硬件体系结构（如传统的 HBM 布局）在处理 MoE 这种“高容量需求、高带宽切换、低计算密度”的负载时显得力不从心。Stratum 的意义在于它标志着 AI 基础设施正从“通用算力竞赛”转向“存储架构的深度定制”。3D 堆叠 DRAM 不仅仅是容量的增加，更是将计算与存储在物理空间上拉近，这预示着未来 AI 芯片的竞争核心将在于谁能更高效地管理“稀疏性”带来的数据流动成本。