llama.cpp B9387 重大更新：AMD CDNA 架构迎来 MFMA 指令集性能飞跃

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

核心事件

开源推理框架 llama.cpp 发布 B9387 版本，针对 AMD ROCm 后端进行了深度优化。此次更新的核心在于引入了对 MFMA（Matrix Fused Multiply-Add）指令集的支持，专门针对 AMD 的 CDNA 架构（包括 MI100、MI200 和 MI300 系列数据中心级显卡）进行了性能榨取。

▶ 硬件分水岭： 本次优化仅限 CDNA 架构，消费级的 RDNA 架构（如 RX 7000 系列）并不在此次 MFMA 加速范围内，这标志着 llama.cpp 正在加强其在企业级算力市场的适配深度。
▶ 性能潜力： MFMA 指令集是 AMD 应对 NVIDIA Tensor Core 的核心武器，通过在底层指令集层面的适配，MI300 等高端加速卡在处理大模型矩阵运算时的吞吐量有望获得显著提升。

八卦洞察

长期以来，llama.cpp 的优化重心高度向 NVIDIA CUDA 倾斜，而 AMD 用户往往面临“能用但不够快”的窘境。B9387 版本的发布，本质上是开源社区对 AMD 数据中心硬件地位的正式认可。随着 MI300X 在性价比上对 H100 形成挑战，软件生态的补齐是其大规模落地的最后一块拼图。此次更新意味着开发者可以更低成本地在 AMD 企业级集群上部署高性能本地模型，进一步削弱了 CUDA 的生态护城河。