OSCAR

核心摘要 OSCAR RotationZoo 正式发布，通过提供预计算的离线频谱协方差感知旋转矩阵（OSCAR），实现了大语言模型（LLM）在 2-bit 极低精度下的 KV 缓存量化，显著降低了长文本推理的显存开销。 ▶ 打破 4-bit 精度魔咒：传统的 KV 缓存量化通常在 4-bit 遇到瓶颈，OSCAR 通过频谱旋转技术使 2-bit 量化在保持模型性能的同时成为可能。 ▶ 零推理开销的离线优化：不同于需要在推理时动态计算的旋转方法，OSCAR 采用离线计算模式，在不增加推理延迟的前提下优化了数据分布。 ▶ 生态系统加速： RotationZoo 为主流模型（如 Llama 系列）提供了现成的旋转矩阵，极大地降低了开发者实现超低比特量化的技术门槛。八卦洞察在 LLM 推理领域，“显存墙” 已经从模型权重转移到了 KV 缓存，尤其是在长上下文（Long-context）应用中。OSCAR 的核心价值在于它对激活值分布的“预处理”。通过数学上的频谱协方差感知旋转，它将原本难以量化的离群值（Outliers）均匀化，从而让 2-bit 量化也能捕捉到足够的特征信息。这标志着量化技术正在从简单的“截断与缩放”转向更深层的“空间变换”。对于追求极致吞吐量的推理框架（如 vLLM, TensorRT-LLM）而言，这不仅是容量的提升，更是单卡并发能力的质变。行动建议推理框架开发者：应尽快集成 RotationZoo 提供的预计算矩阵，为用户提供 2-bit KV 缓存选项，以支持更长的上下文窗口。企业级 AI 架构师：在评估长文本 RAG 或多轮对话系统时，可利用 OSCAR 技术将硬件需求降低 50%-75%，从而优化单位 Token 的推理成本。边缘侧 AI 探索者：关注该技术在消费级显卡（如 RTX 4090）上的表现，2-bit KV 缓存是实现单卡运行 70B 级别模型长文本任务的关键。

突破显存瓶颈：OSCAR RotationZoo 开启 2-bit KV 缓存量化新纪元

BAGUA AI