并行解码

核心事件最近的研究提出了多块扩散语言模型（MultiBD），这是对单块扩散（SingleBD）架构的重大演进。该技术通过引入块间并行性，允许模型并发解码多个连续的文本块，结合KV缓存和变长生成优化，显著提升了扩散模型在文本生成任务中的效率。 ▶ 从串行到并发的范式转移：MultiBD 突破了传统自回归（AR）模型逐个 Token 生成的限制，实现了多个文本块的同步扩散解码，极大地释放了硬件的并行计算潜力。 ▶ 架构级性能优化：通过集成 KV 缓存技术和支持变长生成，MultiBD 在保持扩散模型生成质量的同时，解决了计算冗余问题，优化了长文本生成的推理延迟。 ▶ 训练与推理的脱节挑战：尽管 MultiBD 表现出色，但现有模型主要在“教师强制”（Teacher Forcing）模式下训练，这可能导致模型在实际推理（自由生成）过程中的鲁棒性存在隐忧。八卦洞察长期以来，自回归（AR）架构统治着大模型领域，但其“串行依赖”是推理效率的天然瓶颈。MultiBD 的出现标志着扩散模型（Diffusion Models）正加速向 NLP 核心领地渗透。与投机采样（Speculative Decoding）这种“打补丁”式的优化不同，MultiBD 试图从底层架构上改变生成逻辑。它将文本生成从一维的线性过程转化为多维的并发过程。我们认为，这种“空间换时间”的策略在长文本生成和高吞吐量需求场景下具有极高的商业价值。然而，扩散模型在离散文本空间的收敛效率仍是硬伤，MultiBD 能否真正撼动 Transformer-AR 的地位，取决于其在非教师强制环境下的泛化能力。行动建议对于基础设施与算力厂商，应关注扩散类语言模型对内存带宽和 KV 缓存管理的新需求，提前布局异构并行推理框架。对于模型研发团队，建议探索“AR 引导+扩散生成”的混合架构，以平衡生成的逻辑严密性与并发效率；同时，重点攻克非教师强制（Non-teacher-forcing）训练算法，以提升模型在真实推理场景下的表现。

多块扩散语言模型（MultiBD）：打破自回归生成的串行枷锁

英伟达发布 LocateAnything：并行解码技术助力视觉定位实现 10 倍加速

BAGUA AI