事件核心MIT 衍生初创公司 Liquid AI 正式发布了其最新的 Liquid Foundation Models (LFM) 2.5 系列。其中最受瞩目的是 8B-A1B 模型,这是一个采用 Mixture-of-Experts (MoE) 架构的 80 亿参数模型,但在推理时仅需激活 10 亿参数。该模型最令人震撼的数据在于其训练规模:在高达 38 万亿 (38T) Token 的海量数据集上进行了训练。LFM 2.5 并非基于传统的 Transformer 架构,而是采用了 Liquid AI 独有的、基于动力系统(Dynamical Systems)的新型架构,旨在解决 Transformer 在长序列处理和推理成本上的固有缺陷。技术/商业细节LFM 2.5 的核心竞争力在于其极高的“数据参数比”。通常,Llama 3.1 8B 等模型使用约 15T Token 训练,而 Liquid AI 将这一数字推高到了 38T,这意味着模型对知识的压缩率和理解深度达到了新高度。在架构层面,LFM 避开了传统 Attention 机制的二次方复杂度,实现了线性缩放。这使得 8B-A1B 模型在拥有 128K 上下文窗口的同时,其内存占用远低于同级别的 Transformer 模型。在 Benchmark 测试中,LFM 2.5 8B 在多项指标上超越了 Meta 的 Llama 3.1 8B 和 Google 的 Gemma 2 9B,尤其是在编码(Coding)和长文本推理方面表现卓越。八卦分析:全球影响Liquid AI 的这次发布向业界释放了一个强烈信号:Transformer 可能并非 AI 的终局。长期以来,硅谷一直存在“架构焦虑”,即担心 Transformer 的推理成本会限制 AI 的大规模商业化。Liquid AI 证明了通过非 Transformer 架构(如状态空间模型 SSM 或其变体)配合极致的数据喂养,可以在更小的参数规模下实现更强的性能。这对于边缘计算(Edge AI)和端侧设备具有颠覆性意义。如果 1B 激活参数的模型能达到 8B 甚至更高参数模型的水平,那么智能手机和 IoT 设备将真正具备运行复杂逻辑的能力,而无需依赖昂贵的云端 GPU 集群。战略建议对于开发者: 重点关注非 Transformer 架构的适配。LFM 2.5 提供的推理效率优势,特别是在 KV Cache 压力巨大的长文本场景下,可能是降低 RAG 应用成本的关键。对于企业决策者: 重新评估“模型大小”与“模型能力”的关系。不要盲目追求千亿级参数模型,Liquid AI 的案例证明,经过超大规模数据精炼的小模型(SLM)在特定业务场景下具有更高的 ROI。对于硬件厂商: 关注非 Transformer 算子在芯片层面的优化。随着 Liquid AI、Mamba 等架构的兴起,单纯针对 Attention 优化的硬件架构可能面临兼容性挑战。
SOURCE: HACKERNEWS // UPLINK_STABLE