[ INTEL_NODE_28605 ] · PRIORITY: 9.2/10

突破长文本推理瓶颈：DeepSeek-V4-Flash 实现 524k 上下文下 85 tok/s 极速推理

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

开发者通过修复 MTP（多预测头）在量化过程中的静默丢失问题，成功在两张 RTX PRO 6000 Max-Q 显卡上实现了 DeepSeek-V4-Flash 在 524k 超长上下文下的 85.52 tok/s 高速推理。

关键要点

▶ MTP 自投机采样是性能飞跃的核心： 研究发现，DeepSeek 的多预测头（MTP）架构在推理端具备极强的投机采样潜力，是实现高吞吐量的关键。
▶ 量化工具链存在“静默失效”风险： 社区常用的量化版本（如 pasta-paul 版）在加载时会由于架构不兼容导致 MTP 头丢失，使得投机采样配置形同虚设。
▶ 长文本处理能力的硬件门槛降低： 通过 W4A16+FP8 混合量化与 MTP 优化，专业级/消费级显卡集群已能胜任 500k+ 级别的超长文本实时处理。

八卦洞察

DeepSeek 的 MTP 架构不仅是训练阶段的加速器，更是推理端的“核武器”。本次实验证明了 MTP 自投机采样在长文本场景下的巨大优势。然而，这也暴露了当前 LLM 基础设施的滞后：现有的量化工具（如 GPTQ、AutoGPTQ）尚未完全适配这种非传统的多头架构，导致开发者必须进行手动“外科手术”式的代码重构才能释放硬件潜力。DeepSeek 正在通过架构创新，迫使推理后端进行新一轮的技术迭代。