[ INTEL_NODE_29382 ] · PRIORITY: 9.2/10

小米MiMo-V2.5-Pro UltraSpeed：万亿参数模型在标准8卡节点实现千级TPS突破

● PUBLISHED: · SOURCE: Reddit LocalLLaMA →

[ DATA_STREAM_START ]

小米近日发布了MiMo-V2.5-Pro UltraSpeed，声称在标准8卡GPU服务器上，将万亿参数（1T）规模的MoE模型推理速度提升至1000 tokens/s以上。这一数据此前通常被认为只有在Cerebras或Groq等专用硬件架构上才能实现。

▶ 软件定义性能的巅峰：小米证明了通过极致的软件栈优化，通用GPU（如H100/A100）在处理超大规模稀疏模型时，仍能爆发不亚于专用AI芯片的吞吐能力。
▶ 推理成本的断崖式下跌：在标准硬件上实现千级TPS，意味着万亿级模型的商业化门槛将从“昂贵的定制集群”转向“普适的算力节点”，极大地优化了推理侧的TCO（总拥有成本）。

八卦洞察

这一突破标志着大模型竞争进入了“存量硬件压榨期”。小米此举并非单纯追求速度，而是在向全球AI界展示其在大模型底层算子、内存管理及MoE路由算法上的硬核自研实力。如果该数据在生产环境下得到验证，它将直接挑战Groq等主打SRAM高速缓存的硬件厂商。这传达了一个明确信号：在算力受限或成本敏感的背景下，算法与工程的深度耦合（Co-design）才是突破算力瓶颈的最短路径。小米正试图从应用层向基础设施层反向渗透，建立其在AI 2.0时代的底层话语权。