[ INTEL_NODE_29342 ] · PRIORITY: 8.8/10

120 tok/s！Gemma 4 12B 在 12GB 显存上的推理突破：QAT 与 MTP 的深度协同

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

开发者社区近期在消费级硬件上实现了大模型推理性能的飞跃：通过结合 Google 官方 Gemma 4 12B 的 QAT（量化感知训练）版本与打过 MTP（多 Token 预测）补丁的 llama.cpp，在仅 12GB 显存的 GPU 上成功跑出了 120 tok/s 的惊人速度。

▶ QAT 范式转移：Google 官方提供的 QAT 版本显著降低了量化过程中的精度损失，使得 12B 模型在压缩至 12GB 显存可容纳的大小后，依然保持了极高的逻辑能力。
▶ MTP 推理倍增：多 Token 预测（Multi-Token Prediction）技术在 llama.cpp 上的落地，将传统逐字生成的瓶颈打破，使推理吞吐量直接跨入“百代币/秒”时代。

八卦洞察

这一进展标志着端侧 AI（Edge AI）正在从“勉强运行”进化到“丝滑体验”。12GB 显存是目前中端显卡（如 RTX 3060/4070）的标配，这意味着原本属于数据中心级别的推理性能，现在正通过算法优化（QAT）和架构补丁（MTP）大规模下沉至个人工作站。Google 积极拥抱 QAT 并在 Gemma 系列中推广，本质上是在定义端侧模型的“工业标准”，试图在本地部署生态中通过极致的效能比挤压竞争对手。

行动建议

开发者应立即关注 Unsloth 发布的 GGUF 量化版及相关 MTP 补丁，这是目前提升本地 LLM 响应速度的最短路径。对于企业级应用，建议重新评估本地化部署的成本收益比：在 120 tok/s 的速度下，实时语音交互和复杂 RAG 检索的延迟感将几乎消失，这为开发低延迟、高隐私的本地 AI 助手提供了坚实的硬件基础。

[ DATA_STREAM_END ]

[ ORIGINAL_SOURCE ]

READ_ORIGINAL →

[ 02 ] RELATED_INTEL

MIT 团队开源 Caliby：嵌入式向量数据库性能飞跃，剑指本地 Agent 核心基建

来自 MIT 数据库实验室的博士团队正式…

Mistral 发布 Leanstral 1.5：以极致推理效率重塑边缘计算格局

核心事件 Mistral AI 正式推出…

商汤SenseNova-U1：被低估的MoT架构，正在重塑多模态生成的边界

核心事件商汤科技发布的SenseNov…

SupraLabs 发布 Any2Any 实验模型：30M 参数实现全模态原生统一

核心事件 SupraLabs 近日发布了…