核心事件
Clark Labs 近日发布了基于 Sana 1.6B 的 1.58-bit 三值化(Ternary)模型 Clark Air。该模型通过将文本生成图像 Transformer 压缩至约 1.85 bits/权重,实现了惊人的 8.6 倍体积缩减:其 FP16 基准版本为 3.21 GB,而打包后的 Clark Air 仅为 374 MB,且在实测中表现出接近原版的图像质量。
▶ 极致能效比:374 MB 的体积意味着该模型可以轻松塞进中低端手机的内存或嵌入式设备的显存中,彻底打破了高质量生图对昂贵 GPU 的依赖。
▶ 技术范式转移:此举证明了 BitNet 1.58b 的三值化理念在图像生成 Transformer(DiT)架构上同样具有极高的适配性,预示着多模态模型正全面进入“位宽缩减”时代。
▶ 兼容性策略:仓库同时提供了解包后的反量化版本,确保了在现有推理框架下的即插即用,降低了开发者的迁移门槛。
八卦洞察
这不仅仅是一次简单的模型压缩,而是“推理民主化”的里程碑。长期以来,1B 级以上的图像模型在移动端运行一直面临显存带宽瓶颈。Clark Air 的出现标志着生图模型正式进入“软盘时代”(体积小到可以忽略不计)。从行业格局看,当 1.58-bit 技术从纯文本 LLM 跨越到图像生成领域,云端生图服务的商业壁垒正在被本地算力迅速瓦解。未来,AI 厂商的竞争焦点将从“谁的模型参数大”转向“谁能在极低位宽下保持智能”。
行动建议
对于端侧 AI 开发者,应立即评估 1.58-bit 架构在自有产品线中的应用潜力,特别是针对 VRAM 受限的场景。硬件厂商则需关注三值化算子(Ternary Operators)的底层加速优化,因为未来的主流推理将不再是 FP16 的天下。对于独立开发者,Clark Air 提供了一个完美的基座,用于构建极轻量化的私有化生图应用。
SOURCE: REDDIT LOCALLLAMA // UPLINK_STABLE