[ DATA_STREAM: DGX-SPARK ]

DGX Spark

SCORE
8.8

双路 DGX Spark 集群性能突破:DeepSeek 百万上下文推理步入 40tk/s 时代

TIMESTAMP // 6 月.14
#DeepSeek #DGX Spark #推理加速 #混合专家模型 #长文本

本文深入探讨了在两台 Nvidia DGX Spark 系统上部署 DeepSeek 大规模混合专家模型(MoE)的性能表现。通过集群化配置,该方案在处理 1M(百万级)超长上下文时实现了 40tk/s 的单流推理速度,聚合吞吐量高达 350tk/s。这一数据显著超越了顶级工作站显卡 RTX Pro 6000 和 Mac M2 Ultra (192GB),为本地化 AI 智能体(Agents)的规模化应用提供了硬核参考。 ▶ 硬件协同效应: 并非简单的显存堆叠,双机集群通过高带宽互联解决了 MoE 模型在长文本下的内存带宽瓶颈,使本地推理速度达到商用 API 级别。 ▶ 性能代差: 在 1M 上下文的极端压力测试中,DGX 集群的稳定性与处理速度远超苹果统一内存架构,证明了专用计算集群在复杂 RAG 和长程对话任务中的统治地位。 ▶ 智能体生产力: 40tk/s 的速度意味着 AI 智能体可以在秒级内完成万字文档的检索与分析,消除了本地部署中常见的“响应焦虑”。 八卦洞察 「八卦智慧」认为,这次基准测试揭示了一个关键趋势:本地化大模型的竞争焦点正从“能不能跑”转向“跑得够不够快”。DeepSeek 系列模型凭借极高的性价比,正迫使企业级硬件配置向“多节点、高互联”转型。DGX Spark 的表现证明,对于追求隐私且需要处理海量上下文的金融、法律等行业,双机或多机集群已成为替代昂贵公有云 API 的可行路径。此外,这也反映出苹果 M 系列芯片在面对真正的企业级 MoE 推理负载时,其内存带宽仍存在物理上限,无法完全替代专用 GPU 集群。 行动建议 1. 架构升级: 针对需要部署 DeepSeek-V3/V4 级别模型的企业,应优先考虑支持多机 NVLink 或高带宽以太网互联的集群方案,而非单机多卡。2. 优化量化策略: 在追求速度的同时,应结合 FP8 或更先进的量化技术,以平衡显存占用与推理精度。3. 关注 Agentic 场景: 评估本地硬件时,应以 100k+ 上下文下的 token 生成速率作为核心指标,这直接决定了 AI 智能体的实用性。

SOURCE: REDDIT LOCALLLAMA // UPLINK_STABLE