[ INTEL_NODE_28878 ] · PRIORITY: 9.2/10

llama.cpp 正式支持 MTP：本地推理性能“大爆发”，Qwen 3.6 提速最高达 2.44 倍

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

核心事件

llama.cpp 社区通过 PR #22673 正式合入了多 Token 预测（Multi-Token Prediction, MTP）投机采样支持。根据最新实测数据，在 AMD Strix Halo 和 NVIDIA RTX 3090 等消费级硬件上，该技术为 Qwen 3.6 27B 等模型带来了显著的推理性能提升，最高加速比达到 2.44 倍，标志着本地大模型推理效率进入新阶段。

▶ 性能跃迁：在 AMD Strix Halo 平台上，Qwen 3.6 27B (Q8_0) 的推理速度从 7.4 tok/s 飙升至 18.1 tok/s；在双 RTX 3090 环境下，同规格模型提速达 2.17 倍。
▶ 硬件红利：Strix Halo 凭借统一内存架构在 MTP 加持下表现惊人，展现了下一代端侧 AI 芯片在处理高参数模型时的巨大潜力。
▶ 架构演进：MTP 投机采样通过预测未来多个 Token 并进行并行验证，有效缓解了本地推理中长期存在的内存带宽瓶颈问题。

八卦洞察

此次 llama.cpp 对 MTP 的支持，本质上是“软件定义性能”的又一胜利。长期以来，本地 LLM 推理受限于内存带宽（Memory Wall），即便拥有强大的算力，也往往处于“等数据”的状态。MTP 的引入改变了博弈规则：它不再单纯追求单次计算的绝对速度，而是通过提高每个时钟周期的“信息密度”来变相提升吞吐量。特别值得关注的是 AMD Strix Halo 的表现，其 2.44 倍的增益甚至超过了传统的 RTX 显卡阵列，这预示着未来端侧 AI 的竞争焦点将从单纯的算力（TFLOPS）转向内存架构与算法优化的深度耦合。

行动建议

对于开发者和企业级用户，建议立即更新 llama.cpp 至最新主线版本，并针对支持 MTP 的模型架构（如 Qwen 系列）进行部署测试。在硬件采购上，应重新评估高性能 APU（如 Strix Halo）在性价比和能效比上的优势，而非盲目堆叠独立 GPU。此外，针对 RAG 等对延迟敏感的应用场景，MTP 提供的 2 倍以上提速将直接跨越“用户体验阈值”，建议优先将其集成至生产环境的推理流水线中。

[ DATA_STREAM_END ]

[ ORIGINAL_SOURCE ]

READ_ORIGINAL →

[ 02 ] RELATED_INTEL

Tilde.run：为 AI 智能体打造“带撤销键”的事务化沙箱

Tilde.run 是一款专为 AI 智…

OpenAI 发布 Daybreak 套件：GPT-5.5-Cyber 开启 AI 原生安全防御新纪元

核心摘要 OpenAI 正式推出名为“D…

智启未来：GPT-5.6 Sol 深度预览与行业范式转移

核心事件 OpenAI 正式披露了下一代…

深度剖析 DeepSeek DSpark：超越 MTP，重新定义大模型数据工程的“工业级”标准

核心摘要 DeepSeek 近期推出的 …