Gemma-4

核心事件总结 llama.cpp 创始人 Georgi Gerganov 提交并合并了 PR #24277，通过消除 KV Cache 单元的冗余内存拷贝，大幅优化了 Gemma-4 模型在多标记预测（MTP）模式下的性能，该更新已在 b9551 及更高版本中上线。 ▶ 内存管理底层重构：该优化通过避免不必要的 KV 单元复制，显著降低了推理过程中的内存带宽压力和 I/O 开销。 ▶ MTP 架构性能红利：此次更新直接解决了 Gemma-4 等采用多标记预测（Multi-Token Prediction）架构模型在端侧部署时的效率瓶颈。 ▶ 社区响应速度： llama.cpp 对新型模型架构的极速适配，进一步巩固了其作为本地大模型推理事实标准的地位。八卦洞察在当前大模型推理领域，瓶颈正在从纯粹的算力（Compute-bound）转向内存带宽与精细化管理（Memory-bound）。Gemma-4 引入的 MTP 架构虽然在理论上能通过并行预测多个 Token 来提升速度，但在实际落地中，复杂的缓存分支管理往往会导致性能损耗。Gerganov 的这次修复精准打击了 KV Cache 在处理非线性序列时的冗余操作。这不仅是代码层面的微调，更标志着端侧推理引擎正在进入“零拷贝”（Zero-copy）竞争时代。对于开发者而言，这意味着在消费级显卡上运行高性能、低延迟的复杂架构模型正变得越来越可行。行动建议 1. 立即升级：正在使用 Gemma-4 或关注 MTP 性能的开发者，应立即将 llama.cpp 环境升级至 b9551 或更高版本。2. 配置优化：在部署 Gemma-4 时，建议重新测试并调整 MTP 相关参数，以充分利用此次内存优化带来的吞吐量提升。3. 关注架构演进：建议持续关注 llama.cpp 针对 Speculative Decoding（投机采样）和 MTP 的后续底层优化，这是目前提升端侧推理速度最有效的路径。

llama.cpp 性能大跃进：优化 KV Cache 机制，显著提升 Gemma-4 MTP 推理效率

硬件平权：Gemma-4-26B-A4B 在百元 CPU 机器上跑出 7 T/s

BAGUA AI