[ INTEL_NODE_29734 ] · PRIORITY: 8.9/10

llama.cpp 正式支持阶跃星辰 Step3.5/3.7 Flash MTP3：本地推理性能再迎突破

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

核心事件

全球最受欢迎的本地大模型推理引擎 llama.cpp 正式合并了对阶跃星辰（StepFun）Step3.5/3.7 Flash MTP3 的支持（PR #24340）。该更新是此前多层多标记预测（Multi-Token Prediction, MTP）架构支持的延续，标志着国产高性能模型在开源推理生态中的进一步集成。

▶ 技术演进：MTP 技术通过一次性预测多个 Token，显著提升了推理吞吐量，是 DeepSeek 和阶跃星辰等头部厂商实现“极速推理”的核心秘籍。
▶ 生态协同：此次合并意味着开发者现在可以利用 llama.cpp 在消费级硬件上以极低延迟运行 Step3.5/3.7 系列模型，打破了高性能模型对云端 API 的依赖。
▶ 行业信号：国产大模型正积极拥抱全球开源标准，通过优化底层推理框架来争夺开发者与边缘计算市场。

八卦洞察

MTP（多标记预测）正在从“大厂黑科技”走向“行业标配”。DeepSeek 证明了 MTP 在训练效率和推理速度上的双重优势，而阶跃星辰（StepFun）在 Step3.5/3.7 上的快速跟进并打通 llama.cpp 路径，反映了国产大模型厂商在“推理工程化”上的极高内卷程度。对于 llama.cpp 而言，支持 MTP3 不仅仅是增加了一个模型格式，更是对其底层架构处理非线性 Token 生成能力的又一次大考。这预示着未来本地 AI 将不再仅仅追求“能跑”，而是追求与云端对齐的“极致响应速度”。

行动建议

1. 开发者：建议立即更新 llama.cpp 至最新版本，并尝试使用 GGUF 格式的 Step3.5 Flash 进行性能压测，特别是在对延迟敏感的 Agent 场景中。2. 企业架构师：在评估私有化部署方案时，应优先考虑支持 MTP 架构的模型，以在有限的硬件资源下获取更高的并发处理能力。3. 硬件厂商：针对 MTP 带来的内存带宽需求变化，需进一步优化边缘端设备的缓存调度策略。

[ DATA_STREAM_END ]

[ ORIGINAL_SOURCE ]

READ_ORIGINAL →

[ 02 ] RELATED_INTEL

Models.dev：打破大模型“黑盒”信息差，开源社区重塑选型标准

Models.dev 是一个新兴的开源项…

苹果的“核武库”泄露？macOS 隐藏 RDMA 符号曝光，NVIDIA 与 Mac 的零拷贝互联或成现实

事件核心近日，Reddit 社区 Lo…

Shift：免费家政背后的“数据炼金术” —— 机器人通用智能的突围战

核心事件机器人初创公司 Shift 宣…

算力效率新巅峰：llama.cpp 正式支持 NVFP4 与多 Token 预测 (MTP)

开源大模型推理框架 llama.cpp …