Qwen2.5

Unsloth 近期发布了保留 MTP（Multi-Token Prediction，多 Token 预测）层的 Qwen2.5-32B 和 35B-A3B GGUF 模型。这一举动标志着原本属于顶级实验室架构（如 DeepSeek-V3）的推理加速技术，正式进入消费级本地 AI 生态。核心要点▶ 推理效率质变：通过保留 MTP 层，模型可实现“自预测”式的投机采样（Speculative Decoding），在不增加额外草稿模型（Draft Model）的前提下显著提升生成速度。▶ 部署门槛提示：目前该功能尚未合并至 llama.cpp 主分支，用户需手动检出并构建特定的 PR 分支方可启用 MTP 硬件加速。▶ 架构民主化：Unsloth 正在将复杂的架构级优化转化为易用的本地量化格式，进一步缩短了前沿论文与实际生产力工具之间的距离。八卦洞察MTP 技术的落地是本地 LLM 社区的一个里程碑。长期以来，自回归模型的推理瓶颈在于单次只能输出一个 Token。DeepSeek-V3 证明了 MTP 在大规模预训练中的价值，而 Unsloth 的介入则解决了“下放”问题。这不仅是速度的提升，更是对推理成本的结构性优化。我们认为，随着 MTP 在 llama.cpp 等主流框架的正式合入，2025 年将成为“投机推理”在边缘端普及的元年，传统的单 Token 生成模式将逐渐被多 Token 并行预测取代。行动建议开发者：若业务场景涉及高吞吐量的 RAG 或智能体（Agent）任务，建议立即测试 Unsloth 提供的 MTP 版本模型，评估其在特定硬件上的延迟收益。运维人员：关注 llama.cpp 相关 PR 的更新频率，提前准备基于 CMake 的自定义构建环境，以应对 MTP 带来的非标准部署需求。硬件厂商：MTP 的普及将改变显存带宽与算力的平衡需求，建议在后续产品迭代中针对多 Token 并行预测的内存访问模式进行优化。

Unsloth 引入 MTP 技术：Qwen2.5 模型本地推理效率迎来质变

BAGUA AI