性能评测

社区用户在 128GB 内存的 M5 Max 顶级配置上，利用 llama.cpp 首发分支对阶跃星辰（StepFun）最新发布的 3.7 Flash 模型进行了深度性能压测，揭示了国产大模型在顶级端侧硬件上的真实吞吐上限。 ▶ 内存墙挑战：在 Q4_K_S 量化下，模型内存峰值占用突破 120GB，几乎吃满 M5 Max 的 128GB 统一内存，导致系统出现轻微卡顿，这预示着超大参数 Flash 模型在端侧部署已触及当前消费级硬件的天花板。 ▶ 极致吞吐表现：实测生成速度达到 62.8 t/s，Prompt 处理（Prefill）速度最高冲至 1056.65 t/s。在 16k 以内的短上下文场景下响应近乎瞬时，即便在 32k-64k 的长文本压力下，性能依然保持在商用可用区间。八卦洞察阶跃星辰 3.7 Flash 在 llama.cpp 社区的快速适配，标志着国产大模型正从“API 依赖”转向“本地优先”的全球开发者生态。此次测试数据极具代表性：1000+ t/s 的预处理速度意味着 RAG（检索增强生成）系统的首字延迟（TTFT）将被压缩到极致。然而，M5 Max 128GB 版本的“捉襟见肘”也释放了一个明确信号：未来的端侧 AI 竞争，本质上是模型压缩算法与统一内存带宽的生死时速。StepFun 能够在保持高参数量性能的同时，在 Apple Silicon 上实现如此高的吞吐，证明其架构在 KV Cache 优化上具有显著优势。行动建议对于追求极致隐私与低延迟的企业级应用，建议优先布局 M5 Max 或 Ultra 级别的硬件矩阵，并重点关注 Q4 以下的混合量化方案以释放系统内存压力。开发者应针对 llama.cpp 的最新分支进行针对性编译优化，利用 Apple Silicon 的 AMX 指令集进一步压榨 StepFun 3.7 Flash 在长上下文 RAG 场景下的吞吐潜力。

阶跃星辰 StepFun 3.7 Flash 性能实测：M5 Max 压榨极限，端侧推理进入“毫秒级”时代

BAGUA AI