能效比

核心摘要 DeepSeek 本周发布了 V4 完整版论文，详细披露了其在模型训练后期引入 FP4 量化感知训练（QAT）的技术细节，通过对 MoE 专家权重及 CSA 索引器的极致优化，实现了推理速度与显存占用的双重突破。 ▶ 显存瓶颈的终结：通过将 MoE 专家权重这一最大的显存消耗项量化为 FP4，DeepSeek 成功在不损失精度的前提下大幅降低了硬件门槛。 ▶ 硬件原生优化：在 CSA 索引器的 QK 路径中使用 FP4 激活，使 QK 选择器速度翻倍，且召回率高达 99.7%，展现了软硬结合的深度。 ▶ 训练稳定性黑科技：论文首次公开了在低比特量化下保持训练稳定的具体技巧，为万亿参数模型的低成本训练提供了路线图。八卦洞察 DeepSeek V4 的发布标志着大模型竞争已从单纯的“规模博弈”转向“能效博弈”。其核心洞察在于：量化不应仅仅是推理阶段的后期处理，而应深度嵌入训练生命周期。通过 FP4 QAT，DeepSeek 实际上是在训练阶段就为硬件“量体裁衣”。这种对数值精度的精细化管理，反映了其对底层算子和硬件架构的深刻理解，这也是其能够在算力受限背景下持续输出顶级性能的关键“护城河”。行动建议对于追求极致 TCO（总拥有成本）的企业，应立即关注“训练即量化”的技术趋势。建议架构师评估在现有训练流水线后期引入低比特 QAT 的可行性。同时，开发者应深入研究 DeepSeek 对 CSA 索引器的优化逻辑，这对于构建高性能 RAG 系统或长文本处理架构具有极高的参考价值。在未来，无法适配 FP4/INT4 等低精度计算的模型架构将在推理成本上彻底失去竞争力。

DeepSeek V4 完整论文解析：FP4 QAT 开启大模型“极致能效”时代

BAGUA AI