通过将推断模式从传统的按层拆分(Layer Split)切换为张量并行(Tensor Split),开发者在 RTX 5090 与 3090 Ti 异构显卡组合上实现了 Qwen3.6-27B (Q8_0) 模型超过 100 t/s 的极致推理速度,性能较此前提升近 43%。
▶ 突破异构显卡瓶颈:张量并行模式有效解决了“按层拆分”带来的显卡间串行等待问题,使 RTX 5090 的强大算力不再受限于 3090 Ti 的层间传输延迟。
▶ 27B 模型进入“即时响应”时代:在消费级硬件上实现 100+ t/s 的 Q8 高精度推理,意味着本地大模型在处理复杂逻辑任务时,其响应速度已完全超越主流云端 API。
八卦洞察
这一案例揭示了本地 LLM 玩家正在经历从“内存容量焦虑”到“算力饱和优化”的范式转移。在多显卡(尤其是新旧混搭)环境下,传统的按层拆分会导致流水线停顿(Pipeline Stall),即高端显卡在等待低端显卡完成当前层的计算。而张量并行(Tensor Parallelism)通过让两张显卡同时处理同一个张量的不同部分,极大地提高了 TFLOPS 的利用率。这证明了在 RTX 5090 时代,软件层面的并行策略优化比单纯堆砌显存容量更能决定用户体验的上限。
行动建议
对于拥有多 GPU 设备的开发者和 AI 爱好者,建议立即放弃默认的按层分配策略,转向支持 --split-mode tensor 的后端(如 llama.cpp)。在配置异构集群(如 5090 混搭 30/40 系列)时,应优先考虑计算密度的平衡而非简单的显存平分,以最大化利用新一代显卡的吞吐能力。此外,针对 27B 这一级别的模型,Q8 量化配合张量并行已达到性能甜点位,无需为了速度过度牺牲精度。
SOURCE: REDDIT LOCALLLAMA // UPLINK_STABLE