内存效率

Orthrus 提出了一种创新的“双视角”架构，通过在冻结的自回归 Transformer 层中注入可训练的扩散注意力模块，实现了 32 个词元的并行生成与无损验证，在保持模型输出分布完全一致的同时显著提升了推理速度。 ▶ KV 缓存复用的范式转移：不同于传统的投机采样（Speculative Decoding）需要额外的草稿模型，Orthrus 直接在主模型内部共享 KV 缓存，解决了推理过程中的内存墙问题。 ▶ 扩散与自回归的深度融合：利用扩散头进行大规模并行预测，再由自回归头进行“最长匹配前缀”验证，实现了速度与精度的完美平衡。八卦洞察在大模型推理优化领域，我们正处于从“串行计算”向“并行预测”转型的关键期。Orthrus 的核心价值在于它对“内存效率”的极致追求。目前的投机采样技术往往因为需要维护两个模型的 KV 缓存而导致显存溢出，尤其是在长文本场景下。Orthrus 通过“插件式”的扩散模块，在不破坏原始模型权重的逻辑下，巧妙地复用了计算状态。这不仅是技术上的补丁，更是对 Transformer 推理范式的重构：它证明了扩散模型可以作为 LLM 的高效“加速器”，而非仅仅是图像生成的工具。行动建议对于追求高吞吐、低延迟的 AI 基础设施厂商，应重点关注这种“共享 KV 缓存”的并行生成方案，这比单纯增加算力更具成本效益。开发者在进行模型微调时，可以考虑引入类似的轻量级扩散插件，以在不改变模型核心能力的前提下，获得原生的推理加速特性。此外，针对边缘侧部署，Orthrus 这种节省显存的方案将是实现本地大模型流畅运行的关键技术路径。

Orthrus：双视角扩散机制打破自回归推理瓶颈，KV 缓存共享实现极致内存效率

BAGUA AI