[ INTEL_NODE_29120 ] · PRIORITY: 8.8/10

vLLM 合并原生 HIP W4A16 算子：AMD GPU 推理性能迎来“暴力”跃升

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

vLLM 社区近日正式合并了针对 AMD ROCm 平台的原生 HIP W4A16（权重量化 4-bit，激活 16-bit）算子。该更新彻底打破了 AMD 设备在主流推理框架中的性能瓶颈，使 RDNA3 架构显卡在运行 Qwen 等模型时展现出极高的吞吐能力。

▶ 性能跨越：在 Qwen3.6-27B 测试中，原生 HIP 算子在序列数为 32 时达到 445.7 tk/s，相比此前 Triton 算子的 83 tk/s 实现了近 5 倍的吞吐量提升，性能表现甚至超越了此前的优化标杆 ExLlama。
▶ 生态补完：此 PR 标志着 AMD ROCm 在 vLLM 中的底层支持进入“深水区”，从依赖通用编译器（Triton）转向手写高性能原生算子，极大增强了 AMD 硬件在生产环境中的实用性。

八卦洞察

长期以来，AMD 在 AI 推理领域的痛点不在于硬件规格，而在于算子库的深度优化。此次 vLLM 合并原生 HIP 算子，意味着 AMD 正在通过“社区驱动+核心算子重写”的策略，快速缩小与 NVIDIA CUDA 生态在量化推理上的差距。这一变动不仅利好拥有 RX 7900 系列显卡的消费级用户，更为数据中心级 Instinct 系列在 vLLM 上的规模化部署扫清了性能障碍。AMD 正在从“能跑通”向“跑得快”产生质变。