[ INTEL_NODE_29388 ] · PRIORITY: 9.0/10

Luce Spark：打破显存枷锁，让 35B MoE 模型在 16GB 显卡上“丝滑”运行

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

事件核心

Luce Spark 推出了一种针对混合专家模型（MoE）的创新推理优化方案，成功将 Qwen3.6 35B-A3B 等中大型模型在 16GB 显存（如 RTX 3090/4080）上的占用从 20.5 GiB 压缩至 13.3 GiB。该技术的核心在于利用 MoE 的稀疏激活特性，通过动态校准仅在显存中保留“热点专家”，从而在不牺牲推理速度的前提下绕过了传统的 CPU Offload 性能瓶颈。

▶ 显存利用率革命：通过将活跃专家驻留显存、长尾专家置于系统内存的策略，实现了 35B 规模模型在消费级硬件上的全速运行。
▶ 智能专家调度：Spark 能够根据用户流量特征实时校准专家分布，极大降低了从系统内存交换专家带来的 I/O 延迟。

八卦洞察

MoE 架构的红利正在从云端数据中心快速下沉到边缘侧。Luce Spark 的意义在于它证明了“大模型”并不等同于“高显存门槛”。在过去，运行 35B 模型通常需要 24GB 甚至双卡环境，而 Spark 通过将显存视为“专家缓存”而非“静态容器”，将 16GB 显存定义为了高性能本地 AI 的新基准。这种从“暴力量化”向“架构感知管理”的转变，是本地 LLM 社区的一次重大技术跃迁。