[ DATA_STREAM: %E7%BD%91%E7%BB%9C%E5%8D%8F%E8%AE%AE ]

网络协议

SCORE
8.8

OpenAI的实时语音困局:WebRTC是否已成AI进化的枷锁?

TIMESTAMP // 5 月.08
#WebRTC #低延迟 #基础设施 #实时AI #网络协议

核心摘要OpenAI在其实时语音模式(Realtime API)中沿用了传统的WebRTC协议。虽然这确保了跨平台的兼容性,但WebRTC复杂的协议栈和为P2P设计的初衷,正逐渐成为追求极致低延迟AI交互的技术瓶颈。关键要点▶ 协议错配:WebRTC本质上是为浏览器点对点(P2P)视频会议设计的“大杂烩”,而AI推理需要的是高效的客户端-服务器(C/S)架构。▶ 延迟税:ICE、STUN、TURN以及繁琐的DTLS握手增加了首包延迟,这与GenAI追求的“即时反馈”感背道而驰。▶ 架构演进:行业正关注Media over QUIC (MoQ) 作为替代方案,它能提供更简洁的传输层,绕过WebRTC的历史包袱。八卦洞察在「八卦智库」看来,OpenAI选择WebRTC是一个典型的“工程妥协大于架构纯粹”的案例。为了快速抢占开发者市场,OpenAI必须兼容现有的Web基础设施。然而,WebRTC的复杂性(如SRTP加密、拥塞控制等)在服务器端大规模扩展时会产生极高的CPU开销。随着AI交互从“请求-响应”模式转向“持续流式”模式,现有的网络协议栈已经无法承载下一代多模态大模型的实时性需求。我们预测,头部的AI基础设施厂商将很快推动基于QUIC的自定义协议标准化,以彻底终结WebRTC在AI领域的统治。行动建议1. 架构审视:对于构建高并发实时AI应用的团队,不应盲目跟随OpenAI的WebRTC路径,应评估在Native端使用原生UDP或MoQ方案的可能性。2. 关注MoQ生态:建议技术负责人跟踪IETF关于Media over QUIC的进展,这可能是解决AI音视频传输“最后一公里”延迟的关键。3. 边缘优化:考虑将协议转换(WebRTC转更轻量协议)下沉至边缘节点,以降低核心推理集群的计算负担。

SOURCE: HACKERNEWS // UPLINK_STABLE