[ INTEL_NODE_29826 ] · PRIORITY: 9.2/10

英伟达发布 Nemotron-TwoTower：扩散模型架构挑战自回归，推理速度翻倍

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

核心摘要

英伟达（NVIDIA）正式发布 Nemotron-TwoTower-30B-A3B-Base-BF16，这是一款基于扩散（Diffusion）机制的非典型语言模型，通过创新的“双塔”架构实现了 2.42 倍的推理加速，同时保留了 98.7% 的原始模型精度。

▶ 架构范式转移：该模型摒弃了传统的逐个 Token 生成（Autoregressive）模式，采用一个冻结的上下文塔（Context Tower）配合一个扩散去噪塔（Denoiser Tower），通过并行填充 Token 块打破了串行生成的性能瓶颈。
▶ 极致推理效率：在保持极高基准测试质量的前提下，其生成速度达到了传统自回归基准模型的 2.42 倍，显著降低了长文本生成的墙钟时间（Wall-clock time）。

八卦洞察

这并非英伟达的一次常规模型更新，而是对大模型底层逻辑的战略性重构。长期以来，自回归架构（AR）因其串行特性导致 GPU 算力无法完全释放，且受限于 KV Cache 的内存瓶颈。英伟达此次推出的“双塔”扩散架构，实质上是将文本生成过程“图像化”——像 Stable Diffusion 生成像素一样并行生成文本块。这种设计充分利用了英伟达硬件的并行计算优势，试图从软件架构层面解决推理成本（Inference Cost）过高的行业痛点。对于追求低延迟、高吞吐的生产环境而言，这标志着非自回归（NAR）模型正从理论研究走向工业级应用。