Orthrus 提出了一种创新的“双视角”架构,通过在冻结的自回归 Transformer 层中注入可训练的扩散注意力模块,实现了 32 个词元的并行生成与无损验证,在保持模型输出分布完全一致的同时显著提升了推理速度。
▶ KV 缓存复用的范式转移:不同于传统的投机采样(Speculative Decoding)需要额外的草稿模型,Orthrus 直接在主模型内部共享 KV 缓存,解决了推理过程中的内存墙问题。
▶ 扩散与自回归的深度融合:利用扩散头进行大规模并行预测,再由自回归头进行“最长匹配前缀”验证,实现了速度与精度的完美平衡。
八卦洞察
在大模型推理优化领域,我们正处于从“串行计算”向“并行预测”转型的关键期。Orthrus 的核心价值在于它对“内存效率”的极致追求。目前的投机采样技术往往因为需要维护两个模型的 KV 缓存而导致显存溢出,尤其是在长文本场景下。Orthrus 通过“插件式”的扩散模块,在不破坏原始模型权重的逻辑下,巧妙地复用了计算状态。这不仅是技术上的补丁,更是对 Transformer 推理范式的重构:它证明了扩散模型可以作为 LLM 的高效“加速器”,而非仅仅是图像生成的工具。
行动建议
对于追求高吞吐、低延迟的 AI 基础设施厂商,应重点关注这种“共享 KV 缓存”的并行生成方案,这比单纯增加算力更具成本效益。开发者在进行模型微调时,可以考虑引入类似的轻量级扩散插件,以在不改变模型核心能力的前提下,获得原生的推理加速特性。此外,针对边缘侧部署,Orthrus 这种节省显存的方案将是实现本地大模型流畅运行的关键技术路径。
SOURCE: REDDIT MACHINELEARNING // UPLINK_STABLE