[ DATA_STREAM: %E6%80%A7%E8%83%BD%E8%AF%84%E6%B5%8B ]

性能评测

SCORE
8.8

阶跃星辰 StepFun 3.7 Flash 性能实测:M5 Max 压榨极限,端侧推理进入“毫秒级”时代

TIMESTAMP // 5 月.29
#llama.cpp #M5 Max #性能评测 #端侧推理 #阶跃星辰

社区用户在 128GB 内存的 M5 Max 顶级配置上,利用 llama.cpp 首发分支对阶跃星辰(StepFun)最新发布的 3.7 Flash 模型进行了深度性能压测,揭示了国产大模型在顶级端侧硬件上的真实吞吐上限。 ▶ 内存墙挑战:在 Q4_K_S 量化下,模型内存峰值占用突破 120GB,几乎吃满 M5 Max 的 128GB 统一内存,导致系统出现轻微卡顿,这预示着超大参数 Flash 模型在端侧部署已触及当前消费级硬件的天花板。 ▶ 极致吞吐表现:实测生成速度达到 62.8 t/s,Prompt 处理(Prefill)速度最高冲至 1056.65 t/s。在 16k 以内的短上下文场景下响应近乎瞬时,即便在 32k-64k 的长文本压力下,性能依然保持在商用可用区间。 八卦洞察 阶跃星辰 3.7 Flash 在 llama.cpp 社区的快速适配,标志着国产大模型正从“API 依赖”转向“本地优先”的全球开发者生态。此次测试数据极具代表性:1000+ t/s 的预处理速度意味着 RAG(检索增强生成)系统的首字延迟(TTFT)将被压缩到极致。然而,M5 Max 128GB 版本的“捉襟见肘”也释放了一个明确信号:未来的端侧 AI 竞争,本质上是模型压缩算法与统一内存带宽的生死时速。StepFun 能够在保持高参数量性能的同时,在 Apple Silicon 上实现如此高的吞吐,证明其架构在 KV Cache 优化上具有显著优势。 行动建议 对于追求极致隐私与低延迟的企业级应用,建议优先布局 M5 Max 或 Ultra 级别的硬件矩阵,并重点关注 Q4 以下的混合量化方案以释放系统内存压力。开发者应针对 llama.cpp 的最新分支进行针对性编译优化,利用 Apple Silicon 的 AMX 指令集进一步压榨 StepFun 3.7 Flash 在长上下文 RAG 场景下的吞吐潜力。

SOURCE: REDDIT LOCALLLAMA // UPLINK_STABLE