非 Transformer

事件核心MIT 衍生初创公司 Liquid AI 正式发布了其最新的 Liquid Foundation Models (LFM) 2.5 系列。其中最受瞩目的是 8B-A1B 模型，这是一个采用 Mixture-of-Experts (MoE) 架构的 80 亿参数模型，但在推理时仅需激活 10 亿参数。该模型最令人震撼的数据在于其训练规模：在高达 38 万亿 (38T) Token 的海量数据集上进行了训练。LFM 2.5 并非基于传统的 Transformer 架构，而是采用了 Liquid AI 独有的、基于动力系统（Dynamical Systems）的新型架构，旨在解决 Transformer 在长序列处理和推理成本上的固有缺陷。技术/商业细节LFM 2.5 的核心竞争力在于其极高的“数据参数比”。通常，Llama 3.1 8B 等模型使用约 15T Token 训练，而 Liquid AI 将这一数字推高到了 38T，这意味着模型对知识的压缩率和理解深度达到了新高度。在架构层面，LFM 避开了传统 Attention 机制的二次方复杂度，实现了线性缩放。这使得 8B-A1B 模型在拥有 128K 上下文窗口的同时，其内存占用远低于同级别的 Transformer 模型。在 Benchmark 测试中，LFM 2.5 8B 在多项指标上超越了 Meta 的 Llama 3.1 8B 和 Google 的 Gemma 2 9B，尤其是在编码（Coding）和长文本推理方面表现卓越。八卦分析：全球影响Liquid AI 的这次发布向业界释放了一个强烈信号：Transformer 可能并非 AI 的终局。长期以来，硅谷一直存在“架构焦虑”，即担心 Transformer 的推理成本会限制 AI 的大规模商业化。Liquid AI 证明了通过非 Transformer 架构（如状态空间模型 SSM 或其变体）配合极致的数据喂养，可以在更小的参数规模下实现更强的性能。这对于边缘计算（Edge AI）和端侧设备具有颠覆性意义。如果 1B 激活参数的模型能达到 8B 甚至更高参数模型的水平，那么智能手机和 IoT 设备将真正具备运行复杂逻辑的能力，而无需依赖昂贵的云端 GPU 集群。战略建议对于开发者：重点关注非 Transformer 架构的适配。LFM 2.5 提供的推理效率优势，特别是在 KV Cache 压力巨大的长文本场景下，可能是降低 RAG 应用成本的关键。对于企业决策者：重新评估“模型大小”与“模型能力”的关系。不要盲目追求千亿级参数模型，Liquid AI 的案例证明，经过超大规模数据精炼的小模型（SLM）在特定业务场景下具有更高的 ROI。对于硬件厂商：关注非 Transformer 算子在芯片层面的优化。随着 Liquid AI、Mamba 等架构的兴起，单纯针对 Attention 优化的硬件架构可能面临兼容性挑战。

Liquid AI 发布 LFM 2.5：38万亿 Token 铸就 8B MoE，非 Transformer 架构的效率革命

BAGUA AI