[ INTEL_NODE_29828 ] · PRIORITY: 8.9/10

突破性能瓶颈：Gemma4 系列发布，集成 MTP 提升 53% 推理速度并彻底绕过拒绝机制

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

开发者 HauhauCS 近日发布了基于 Gemma4 架构的 26B 与 31B QAT（量化感知训练）无审查版本模型。该系列模型不仅在 Hugging Face 上创下了近 2000 万次下载的里程碑，更通过引入多 Token 预测（MTP）技术，在保持模型智能度的同时，实现了推理速度的跨越式提升。

▶ 性能飞跃： 借助 MTP 技术，26B 版本推理速度提升 35%，而 31B 版本更是达到了惊人的 53% 增速，显著缓解了中大参数模型在本地部署时的延迟痛点。
▶ 彻底解禁： 该系列模型在 GenRM（生成式奖励模型）测试中表现出极强的鲁棒性，实现了 0/465 的零拒绝率，为追求高自由度对话的用户提供了目前市面上最强的开源替代方案。
▶ QAT 技术红利： 采用量化感知训练而非传统的后量化（Post-Quantization），确保了模型在压缩至 A4B 等低位宽时，依然能保持极高的逻辑一致性与指令遵循能力。

八卦洞察

本次发布标志着本地大模型（Local LLM）社区正从简单的“微调”转向深层的“架构优化”。MTP（Multi-Token Prediction）原本是顶级实验室（如 DeepSeek）用于提升训练效率和推理吞吐量的利器，如今被社区开发者成功集成到量化模型中，预示着本地算力利用率将进入新阶段。此外，针对 GenRM 的“全胜”表现，反映了开源社区在反审查与模型对齐博弈中的技术领先，这对于需要处理敏感或边缘科研任务的开发者具有极高价值。