大模型评测

Meta 超级智能实验室（Superintelligence Lab）近日推出 ProgramBench 评测集，旨在挑战 SOTA 大模型在完全脱离互联网辅助（无 RAG、无实时搜索）的情况下，从零构建如 SQLite、ffmpeg 和 ripgrep 等复杂工业级可执行程序的能力。 ▶ 评测维度从“代码片段”转向“系统工程”：ProgramBench 彻底摆脱了 LeetCode 式的算法题范式，要求模型理解并复现具备复杂逻辑和模块化架构的完整项目，验证其在宏观架构设计与微观逻辑实现上的双重能力。 ▶ 揭示“离线智能”的真伪：该测试强制模型进入“闭卷考试”模式，剔除了对 Stack Overflow 等外部知识库的依赖，直击当前大模型在深层逻辑内化与参数化知识调用上的短板。八卦洞察 Meta 此举实际上是在定义软件工程领域的“AGI 准入门槛”。目前的 AI 编程助手（如 GitHub Copilot）大多扮演着“高级补全工具”的角色，依赖海量的上下文检索。而 ProgramBench 提出的“无网复现”要求，本质上是在筛选具备“自主工程思维”的模型。如果一个模型能独立合成 SQLite，意味着它不仅记住了语法，更理解了数据库底层的文件系统交互、B 树索引等核心逻辑。这标志着 AI 编程评测正从“语料匹配”进化到“逻辑合成”的新阶段。行动建议对于技术决策者而言，应开始关注模型在“长上下文逻辑一致性”上的原生表现，而非仅仅看重 RAG 增强后的即时产出。在涉及高保密、物理隔离（Air-gapped）的开发环境时，ProgramBench 表现优异的模型将具有无可比拟的战略价值。建议研发团队在评估编程模型时，引入类似的“闭卷”压力测试，以识别模型真正的工程上限。

Meta 超级智能实验室发布 ProgramBench：大模型能否在“断网”状态下复现工业级软件？

BAGUA AI