[ INTEL_NODE_29942 ] · PRIORITY: 9.0/10

Ornith-1.0-35B 突破：原生 MTP 嫁接技术实现本地推理 1.35 倍加速

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

Ornith-1.0-35B 发布了针对 GGUF 格式的重大更新，通过将原生多 Token 预测（MTP）草稿头“嫁接”至 IQ4_XS 量化主体，在 llama.cpp 环境下实现了显著的推理性能跨越。

▶ 原生 MTP 嫁接突破：成功将 MTP 草稿头（Q6 量化）集成至模型主体，实现了单 GPU 环境下的自我投机采样（Self-speculative Decoding），无需额外的小型草稿模型。
▶ 性能与精度双赢：单流解码速度从 172.6 tok/s 飙升至 233.8 tok/s，加速比达 1.35x；同时保持了与目标模型字节级一致的次标记分布（KLD 为 0.0）。
▶ 长文本确定性优化：在长文本生成测试中实现了 93.4% 的标记匹配率，BF16 精度下的 KLD 表现甚至优于标准的 Q4_K_M 量化方案。

八卦洞察

Ornith-1.0 的这次更新标志着本地大模型（Local LLM）优化进入了“架构内手术”阶段。传统的投机采样通常需要维护一个独立的、体积较小的草稿模型，这会增加显存占用和推理调度复杂度。而 Ornith 采用的 MTP 嫁接方案证明了在 GGUF 这种高度量化的生态中，利用模型原生结构进行自我加速是完全可行的。这种“以空间换时间”的策略（增加少量的草稿头权重）在 35B 这一量级的模型上回报率极高，尤其是在单卡（Single GPU）部署环境下，它直接解决了吞吐量瓶颈，同时规避了模型蒸馏带来的精度损失。

行动建议

对于正在优化本地推理服务的开发者，建议重点关注 MTP 架构在 llama.cpp 生态中的适配进展。Ornith 的案例表明，针对 30B-70B 规模的模型，采用 IQ 量化配合 MTP 投机采样是目前平衡显存占用与生成速度的最优解。此外，评估模型时不仅要看 TTFT（首字延迟），更应关注 MTP 带来的长文本解码一致性，这对于 RAG（检索增强生成）等对逻辑严密性要求较高的场景至关重要。

[ DATA_STREAM_END ]

[ ORIGINAL_SOURCE ]

READ_ORIGINAL →

[ 02 ] RELATED_INTEL

深度推理实测：当大模型告别“模式匹配”，谁才是真正的逻辑王者？

一项针对120道“深度推理”难题（涵盖A…

DeepSeek v4 Pro 评测罗生门：8% 的 DeepSWE 评分是否低估了其实力？

核心事件近日，关于 DeepSeek …

RTX 5090 性能首秀：单卡跑通 Qwen3.6 27B NVFP4 + 200k 超长上下文

核心摘要本文深度解析了如何在单块 RT…

OpenAI 2025财年支出飙升至340亿美元：亏损扩大8倍背后的算力豪赌

事件核心根据最新披露的财务数据，Ope…