[ INTEL_NODE_29406 ] · PRIORITY: 8.9/10

Unsloth 推出 Gemma 4 QAT MTP 助手模型：本地推理性能的跨越式升级

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

Unsloth 正式发布了基于 Google Gemma 4 的量化感知训练 (QAT) 与多 Token 预测 (MTP) 助手模型。该系列涵盖 12B、26B 和 31B 等多种参数规模，并以 GGUF 格式（包含 q8_0 及更大型号）在 Hugging Face 上线，旨在解决本地部署中高性能与低延迟难以兼得的痛点。

▶ QAT 与 MTP 的技术共振：通过量化感知训练 (QAT) 极大地减少了 8-bit 量化带来的精度损失，同时引入多 Token 预测 (MTP) 技术，为投机采样 (Speculative Decoding) 提供了原生支持，显著提升了推理吞吐量。
▶ 全尺度覆盖与易用性：从 12B 到 31B 的参数梯度，配合优化的 GGUF 格式，使得开发者能够在从消费级显卡到专业工作站的各种硬件环境中，无缝调用 Google 最前沿的 Gemma 4 模型能力。

八卦洞察

Unsloth 的这次发布不仅仅是模型权重的搬运，而是对 Google 原始架构的一次“深度精炼”。在 LLM 行业，量化往往意味着性能妥协，但 Unsloth 证明了通过 QAT 可以在保持模型“智力”的同时大幅压缩体积。更具战略意义的是 MTP 的引入——这标志着本地推理正从单纯的“跑得动”向“跑得飞快”转变。Unsloth 正在确立自己在开源生态中作为“性能优化层”的核心地位，将 Google 的基础研究转化为开发者触手可及的生产力工具。