[ INTEL_NODE_28545 ] · PRIORITY: 8.8/10

Qwen3.6 35B A3B 无审查版发布:原生 MTP 模块完整保留,重塑本地大模型推理性能

  PUBLISHED: · SOURCE: Reddit LocalLLaMA →
[ DATA_STREAM_START ]

Qwen3.6 35B A3B “Heretic” 无审查版本现已正式发布。该版本在移除安全对齐限制的同时,实现了对 19 个原生 MTP(多 Token 预测)模块的完整保留,并以 0.0015 的极低 KLD 值确保了模型逻辑的稳定性。目前已提供 Safetensors、GGUF 及 NVFP4 等多种主流部署格式。

  • 架构完整性:该版本成功保留了 19 个原生 MTP 模块,这在第三方微调模型中极为罕见,确保了推理效率与原始架构的高度一致性。
  • 极低性能损耗:KLD(散度)值仅为 0.0015,意味着在去除拒绝机制的同时,模型几乎完美继承了基座模型的推理逻辑与知识分布,拒绝率仅为 10/100。

八卦洞察

此次“Heretic”版本的发布,标志着本地大模型(LocalLLaMA)社区的微调技术从简单的“去审查”演进到了“架构保真”的新阶段。MTP(Multi-Token Prediction)是 Qwen 系列提升推理吞吐量的核心技术,但在以往的微调过程中,这些模块往往因参数偏移而失效。开发者通过极精细的权重控制,在不牺牲模型“智力”的前提下实现了高度自由的指令遵循。这不仅是内容层面的解放,更是对硬件推理效能的深度压榨。

行动建议

建议关注本地部署效率的开发者优先测试 NVFP4 格式,以在有限显存下获得最佳的吞吐表现。对于需要高创造性、无干预输出或复杂角色扮演的应用场景,该 35B 模型是目前同量级中性能与自由度平衡的最佳选择。研究人员应重点关注其 MTP 模块在微调后的激活状态,为后续 MoE 架构的优化提供参考。

[ DATA_STREAM_END ]
[ ORIGINAL_SOURCE ]
READ_ORIGINAL →
[ 02 ] RELATED_INTEL