[ INTEL_NODE_28790 ] · PRIORITY: 8.8/10

字节跳动发布 Cola-DLM：文本生成进入“潜空间扩散”时代

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

核心事件

字节跳动 Seed 团队近期开源了 Cola-DLM（Continuous Latent Diffusion Language Model），这是一种分层连续潜空间扩散语言模型，通过结合文本 VAE 与块因果扩散 Transformer (DiT) 架构，利用流匹配（Flow Matching）技术实现了在连续潜空间内的文本生成，标志着大模型架构从纯自回归（AR）向扩散范式的进一步演进。

▶ 架构范式转移：不同于传统的逐 Token 自回归预测，Cola-DLM 将文本映射到连续潜空间，利用 DiT 作为先验进行生成，试图解决离散空间生成的局限性。
▶ 技术栈融合：模型集成了 VAE 的压缩能力与 DiT 的扩展性，并采用流匹配算法优化潜变量传输，显著提升了生成效率与质量。
▶ 字节跳动战略布局：此举显示了字节在非自回归架构上的深厚储备，旨在探索比肩甚至超越 GPT 架构的新一代生成基座。

八卦洞察

Cola-DLM 的出现实际上是文本生成的“Stable Diffusion 时刻”。长期以来，NLP 领域一直被自回归架构统治，但图像生成领域早已证明了潜空间扩散（Latent Diffusion）在处理复杂分布和高维度数据上的优越性。字节跳动此举意在打破自回归模型的“曝光偏差”和计算瓶颈。通过将离散 Token 连续化，模型能够更灵活地处理全局信息。这不仅是学术上的探索，更是对未来多模态统一架构（如统一文本与视频生成的潜空间）的提前卡位。