模型评测

核心摘要在最新的 LocalLLaMA 社区实测中，Google 发布的 Gemma 4 31B (FP8) 在包含图遍历、实体提取及智能体工具调用等复杂 RAG 工作流的基准测试中，表现出了紧追 Claude 3.5 Sonnet 的强劲势头，标志着开源模型在 30B 这一“性能-成本平衡点”取得了重大突破。 ▶ 结构化推理能力跨越：Gemma 4 31B 在 Neo4j Cypher 查询生成与 Python 代码编写等硬核逻辑任务中，展现了与顶级闭源模型相当的精确度。 ▶ 量化损耗极低：FP8 格式的 Gemma 4 在保持极高性能的同时，大幅降低了本地显存占用，证明了 Google 在模型权重分布优化上的深厚功底。八卦洞察「八卦资本」认为，Gemma 4 31B 的崛起标志着 AI 行业“中间地带”的消失。长期以来，开发者在“轻量但弱智”的 7B 模型与“强大但昂贵”的闭源 API 之间挣扎。Gemma 4 31B 的出现，证明了 30B 左右的参数规模足以处理复杂的智能体（Agentic）任务，如多向量检索结果的综合摘要与动态工具选择。Google 正在利用其算力优势，将原本属于顶级模型的推理能力下放到中量级开源模型中，这直接威胁到了 Anthropic 和 OpenAI 的中端模型订阅市场。行动建议对于追求隐私与成本控制的企业，建议立即启动从 Claude 3.5 Sonnet 到本地化 Gemma 4 31B 的迁移评估。特别是在 RAG 链路中的“实体提取”与“图查询生成”环节，Gemma 4 的表现已达到生产级要求。此外，开发者应优先关注 FP8 版本的部署，以在单卡（如 A6000 或多张 4090）上实现最优的吞吐性能。

GLM-5.2 登顶 Artificial Analysis 指标：开源大模型格局再洗牌

Gemma 4 31B 深度测评：开源中量级模型正式挺进 Claude 3.5 Sonnet 腹地

BAGUA AI