小米MiMo

小米近日披露其 MiMo V2.5 模型在推理性能上取得重大突破，通过引入 DFlash 架构与持久化内核（Persistent Kernel）技术，实现了 1000-3000 TPS（每秒 Token 数）的惊人吞吐量，并承诺近期将正式开源相关代码。 ▶ 软硬协同深度优化：DFlash 并非单纯的算法改进，而是针对显存带宽瓶颈的底层重构，配合持久化内核减少了算子切换开销。 ▶ 端侧与云端推理边界模糊：如此高的吞吐量预示着小米在端侧 AI 响应速度上已具备行业领先的竞争力，为复杂智能体（Agent）的实时交互奠定了基础。八卦洞察小米此次的技术飞跃释放了一个明确信号：大模型竞赛的下半场已从“参数规模”转向“推理效率”。1000-3000 TPS 的量级意味着模型可以在极短时间内完成多轮思考或长文本生成，这对于需要高频调用、低延迟反馈的 Agentic Workflow（智能体工作流）至关重要。小米选择在此时开源 DFlash，显然是意图通过贡献底层推理基础设施来争夺开发者生态的话语权，挑战目前由 NVIDIA TensorRT-LLM 或 vLLM 主导的推理格局。行动建议对于开发者和企业架构师，建议密切关注小米即将发布的 DFlash 开源仓库。若其持久化内核技术能够适配主流算力平台，将成为降低大模型推理成本（TCO）的关键工具。特别是针对高并发、实时性要求高的业务场景，应提前评估 DFlash 架构对现有推理链路的替代潜力。同时，硬件厂商需警惕这种深度定制化内核带来的软件栈壁垒，加强对异构计算的底层优化支持。

小米 MiMo V2.5 突破 3000 TPS：DFlash 与持久化内核重塑大模型推理效率

BAGUA AI