[ INTEL_NODE_28545 ] · PRIORITY: 8.8/10

Qwen3.6 35B A3B 无审查版发布：原生 MTP 模块完整保留，重塑本地大模型推理性能

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

Qwen3.6 35B A3B “Heretic” 无审查版本现已正式发布。该版本在移除安全对齐限制的同时，实现了对 19 个原生 MTP（多 Token 预测）模块的完整保留，并以 0.0015 的极低 KLD 值确保了模型逻辑的稳定性。目前已提供 Safetensors、GGUF 及 NVFP4 等多种主流部署格式。

▶ 架构完整性：该版本成功保留了 19 个原生 MTP 模块，这在第三方微调模型中极为罕见，确保了推理效率与原始架构的高度一致性。
▶ 极低性能损耗：KLD（散度）值仅为 0.0015，意味着在去除拒绝机制的同时，模型几乎完美继承了基座模型的推理逻辑与知识分布，拒绝率仅为 10/100。

八卦洞察

此次“Heretic”版本的发布，标志着本地大模型（LocalLLaMA）社区的微调技术从简单的“去审查”演进到了“架构保真”的新阶段。MTP（Multi-Token Prediction）是 Qwen 系列提升推理吞吐量的核心技术，但在以往的微调过程中，这些模块往往因参数偏移而失效。开发者通过极精细的权重控制，在不牺牲模型“智力”的前提下实现了高度自由的指令遵循。这不仅是内容层面的解放，更是对硬件推理效能的深度压榨。