[ INTEL_NODE_29826 ] · PRIORITY: 9.2/10

英伟达发布 Nemotron-TwoTower:扩散模型架构挑战自回归,推理速度翻倍

  PUBLISHED: · SOURCE: Reddit LocalLLaMA →
[ DATA_STREAM_START ]

核心摘要

英伟达(NVIDIA)正式发布 Nemotron-TwoTower-30B-A3B-Base-BF16,这是一款基于扩散(Diffusion)机制的非典型语言模型,通过创新的“双塔”架构实现了 2.42 倍的推理加速,同时保留了 98.7% 的原始模型精度。

  • 架构范式转移:该模型摒弃了传统的逐个 Token 生成(Autoregressive)模式,采用一个冻结的上下文塔(Context Tower)配合一个扩散去噪塔(Denoiser Tower),通过并行填充 Token 块打破了串行生成的性能瓶颈。
  • 极致推理效率:在保持极高基准测试质量的前提下,其生成速度达到了传统自回归基准模型的 2.42 倍,显著降低了长文本生成的墙钟时间(Wall-clock time)。

八卦洞察

这并非英伟达的一次常规模型更新,而是对大模型底层逻辑的战略性重构。长期以来,自回归架构(AR)因其串行特性导致 GPU 算力无法完全释放,且受限于 KV Cache 的内存瓶颈。英伟达此次推出的“双塔”扩散架构,实质上是将文本生成过程“图像化”——像 Stable Diffusion 生成像素一样并行生成文本块。这种设计充分利用了英伟达硬件的并行计算优势,试图从软件架构层面解决推理成本(Inference Cost)过高的行业痛点。对于追求低延迟、高吞吐的生产环境而言,这标志着非自回归(NAR)模型正从理论研究走向工业级应用。

行动建议

对于 AI 架构师和基础设施团队,建议立即对该双塔架构进行压力测试,特别是在长文本摘要、代码生成等对并行度敏感的任务中,评估其替代传统 Transformer 架构的潜力。同时,开发者应关注英伟达在 TensorRT-LLM 中对该类非标准架构的支持进度,以便在未来的算力优化中占据先机。

[ DATA_STREAM_END ]
[ ORIGINAL_SOURCE ]
READ_ORIGINAL →
[ 02 ] RELATED_INTEL