核心事件
开发者在 AMD MI300X 平台上成功构建了“单内核”(Monokernel)推理架构。通过将整个 LLM 解码序列作为单个驻留在 GPU 上的程序运行,并针对芯片的物理拓扑(如 IOD 分组和内存布局)进行深度优化,在 Batch Size 为 1 且未开启投机解码的情况下,实现了单请求 3,300 token/s 的极致输出速度,达到了硬件设计的性能峰值。
▶ 全流程驻留: 彻底消除 CPU 与 GPU 之间的内核启动开销,将推理循环完全锁定在 GPU 内部执行。
▶ 拓扑感知优化: 针对 MI300X 的 Chiplet 设计,通过将计算单元(CU)按输入/输出模块(IOD)分组,实现了内存访问与物理布局的精准映射。
▶ 非投机性突破: 这一速度是在纯原生的解码状态下达成的,证明了 AMD 硬件在低延迟、高吞吐场景下的巨大潜力。
八卦洞察
这不仅仅是一个跑分记录,更是对 NVIDIA 软件霸权的一次“降维打击”。长期以来,AMD 的劣势在于 ROCm 生态的碎片化。而“单内核”方案绕过了复杂的通用软件栈,直接在裸机层面榨取 CDNA 3 架构的红利。这种“软件定义硬件”的思路表明,当推理任务从通用计算转向特定领域的极致优化时,MI300X 的海量带宽和 Chiplet 灵活性将成为对抗 H100 的杀手锏。这也预示着未来高端推理市场将从“买通用卡”转向“定制化内核驱动”。
行动建议
对于追求极致推理成本(TCO)的企业,应密切关注针对 AMD 硬件的底层优化框架(如 vLLM 的底层重构或此类单内核方案),而非仅仅依赖官方 ROCm 库。建议基准测试团队重新评估 MI300X 在实时交互式 AI 应用(如语音助手、实时代码补全)中的地位,其单请求延迟表现可能已超越同代 NVIDIA 产品。
SOURCE: REDDIT MACHINELEARNING // UPLINK_STABLE