DGX Spark

本文深入探讨了在两台 Nvidia DGX Spark 系统上部署 DeepSeek 大规模混合专家模型（MoE）的性能表现。通过集群化配置，该方案在处理 1M（百万级）超长上下文时实现了 40tk/s 的单流推理速度，聚合吞吐量高达 350tk/s。这一数据显著超越了顶级工作站显卡 RTX Pro 6000 和 Mac M2 Ultra (192GB)，为本地化 AI 智能体（Agents）的规模化应用提供了硬核参考。 ▶ 硬件协同效应：并非简单的显存堆叠，双机集群通过高带宽互联解决了 MoE 模型在长文本下的内存带宽瓶颈，使本地推理速度达到商用 API 级别。 ▶ 性能代差：在 1M 上下文的极端压力测试中，DGX 集群的稳定性与处理速度远超苹果统一内存架构，证明了专用计算集群在复杂 RAG 和长程对话任务中的统治地位。 ▶ 智能体生产力： 40tk/s 的速度意味着 AI 智能体可以在秒级内完成万字文档的检索与分析，消除了本地部署中常见的“响应焦虑”。八卦洞察「八卦智慧」认为，这次基准测试揭示了一个关键趋势：本地化大模型的竞争焦点正从“能不能跑”转向“跑得够不够快”。DeepSeek 系列模型凭借极高的性价比，正迫使企业级硬件配置向“多节点、高互联”转型。DGX Spark 的表现证明，对于追求隐私且需要处理海量上下文的金融、法律等行业，双机或多机集群已成为替代昂贵公有云 API 的可行路径。此外，这也反映出苹果 M 系列芯片在面对真正的企业级 MoE 推理负载时，其内存带宽仍存在物理上限，无法完全替代专用 GPU 集群。行动建议 1. 架构升级：针对需要部署 DeepSeek-V3/V4 级别模型的企业，应优先考虑支持多机 NVLink 或高带宽以太网互联的集群方案，而非单机多卡。2. 优化量化策略：在追求速度的同时，应结合 FP8 或更先进的量化技术，以平衡显存占用与推理精度。3. 关注 Agentic 场景：评估本地硬件时，应以 100k+ 上下文下的 token 生成速率作为核心指标，这直接决定了 AI 智能体的实用性。

双路 DGX Spark 集群性能突破：DeepSeek 百万上下文推理步入 40tk/s 时代

BAGUA AI