llama.cpp b9095 发布：双 Blackwell 显卡实现“无 NCCL”张量并行，消费级多卡推理门槛骤降

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

核心速递

llama.cpp b9095 版本正式发布，核心突破在于支持双 Blackwell PCIe GPU 在无需 NCCL 依赖的情况下实现张量并行（Tensor Parallelism, -sm tensor）。

▶ 去 NCCL 化：通过绕过复杂的 NVIDIA 集体通信库（NCCL），显著降低了 Windows 及消费级环境下多显卡协同推理的配置难度。
▶ Blackwell 深度适配：在 RTX 50 系列显卡大规模铺货前，社区已完成底层 P2P 通信优化，预示着新一代架构在本地大模型（LocalLLaMA）领域的统治力。
▶ 性能潜力：该更新针对 PCIe 通道优化了数据交换效率，特别是在双 5060 Ti 等中端配置上，有望实现大参数模型的高速推理。

八卦洞察

长期以来，张量并行（TP）被视为企业级 A100/H100 集群的专利，主要受限于 NCCL 在非 Linux 环境下的兼容性黑盒。llama.cpp 此次更新本质上是在软件层面“暴力拆解”了 NVIDIA 的企业级软件护城河。通过在 Blackwell 架构上实现原生的 P2P（Peer-to-Peer）内存访问，开发者正将消费级硬件推向“准服务器级”表现。这意味着，未来的 AI 开发者可能不再需要昂贵的 NVLink 桥接，仅靠 PCIe 槽位即可在双卡环境下流畅运行 70B 甚至更大规模的模型。这不仅是技术的进步，更是本地算力对云端垄断的又一次有力回击。

行动建议

对于计划构建本地推理性算力池的用户，建议密切关注 RTX 50 系列显卡的 PCIe P2P 带宽实测数据。若双 5060 Ti 或 5090 在无 NCCL 模式下表现稳定，企业应重新评估边缘侧部署（Edge Deployment）的硬件选型，优先考虑具备高带宽 PCIe 通道的 Blackwell 消费级方案，而非盲目追求昂贵的专业卡。

[ DATA_STREAM_END ]

[ ORIGINAL_SOURCE ]

READ_ORIGINAL →

[ 02 ] RELATED_INTEL

警惕：Hugging Face 出现伪装成隐私过滤器的恶意模型投毒事件

事件摘要 Hugging Face 平台…

八卦洞察：物理人工智能（Physical AI）如何重塑制造业范式

事件核心 Fictiv 在《机器人报告》…

AI 智能体迎来“Git时刻”：re_gent 开启 Agent 状态版本控制新范式

re_gent 是一款专为 AI Age…

OpenAI 重构 WebRTC 技术栈：实时语音 AI 的全球化规模化博弈

事件核心 OpenAI 近期深度披露了其…