OpenAI 近日详细披露了其用于支持大规模 AI 训练的“多轨集群”(Multi-Rail Cluster, MRC)网络架构,展示了如何通过优化物理拓扑与逻辑通信,解决万卡级别集群中的互联瓶颈问题。▶ 网络成为 Scaling Law 的新命门:随着模型参数规模迈向万亿级,训练瓶颈已从单卡算力转向节点间的通信带宽,MRC 架构通过多路径并行设计,显著降低了集体通信(Collective Communication)的延迟。▶ 可靠性优于峰值性能:在超大规模集群中,链路故障是常态。OpenAI 强调了通过拓扑感知调度和自动化故障隔离,确保在硬件不稳定的情况下依然维持高吞吐训练。八卦洞察OpenAI 此次“技术布道”释放了一个明确信号:大模型竞赛的下半场是“互联竞赛”。传统的通用数据中心网络已无法承载 AGI 级别的算力需求。MRC 架构的本质是打破了计算与网络的边界,将整个超算集群视为一个巨大的“分布式 GPU”。值得注意的是,OpenAI 对 InfiniBand 与以太网选型的权衡,暗示了未来基础设施将向更开放但深度定制的协议演进。这不仅是硬件的堆砌,更是对物理层、链路层到应用层(NCCL)的垂直整合能力的极致考验。行动建议对于算力基础设施提供商,应加速从“单轨”向“多轨”拓扑转型,并重点布局 RDMA 与主动拥塞控制技术。对于大模型研发团队,建议加强对底层网络遥测(Telemetry)的投入,建立自动化的网络拓扑感知调度机制,以应对由于网络抖动导致的训练中断,从而提升昂贵算力资源的有效利用率(MFU)。
SOURCE: HACKERNEWS // UPLINK_STABLE