llama.cpp 迎来 SYCL 架构重大更新：Intel Arc 显卡投机解码性能激增 45%

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

llama.cpp 项目近日合并了 PR #21845，成功将多列 MMVQ（混合矩阵向量量化）实现从 CUDA 后端移植至 SYCL，显著优化了 Intel Arc GPU 在投机解码（Speculative Decoding）场景下的推理吞吐量。

▶ 打破 CUDA 垄断壁垒： 此次移植证明了通过 SYCL 统一编程模型，非 NVIDIA 硬件在特定算子优化上完全能够追平甚至复刻 CUDA 的性能表现，缩短了开源生态的硬件鸿沟。
▶ 投机解码的“平民化”： 投机解码对内存带宽和延迟极其敏感，此次 45% 的性能提升，标志着 Intel Arc 等消费级显卡正逐步从“能跑”进化为“高效运行”复杂推理任务的有力竞争者。

▶ 开发者/用户： 若你正在使用 Intel Arc 系列显卡进行本地推理，请务必将 llama.cpp 更新至 b9519 或更高版本，以解锁该算子优化带来的性能红利。
▶ 硬件厂商视角： Intel 需持续加强对 oneAPI 生态的投入，尤其是针对 llama.cpp 等主流推理框架的持续贡献，这是提升 Arc 系列在开发者社区口碑的关键。

[ DATA_STREAM_END ]

[ ORIGINAL_SOURCE ]

[ 02 ] RELATED_INTEL