小米AI

小米近日发布了MiMo-V2.5-Pro UltraSpeed，声称在标准8卡GPU服务器上，将万亿参数（1T）规模的MoE模型推理速度提升至1000 tokens/s以上。这一数据此前通常被认为只有在Cerebras或Groq等专用硬件架构上才能实现。 ▶ 软件定义性能的巅峰：小米证明了通过极致的软件栈优化，通用GPU（如H100/A100）在处理超大规模稀疏模型时，仍能爆发不亚于专用AI芯片的吞吐能力。 ▶ 推理成本的断崖式下跌：在标准硬件上实现千级TPS，意味着万亿级模型的商业化门槛将从“昂贵的定制集群”转向“普适的算力节点”，极大地优化了推理侧的TCO（总拥有成本）。八卦洞察这一突破标志着大模型竞争进入了“存量硬件压榨期”。小米此举并非单纯追求速度，而是在向全球AI界展示其在大模型底层算子、内存管理及MoE路由算法上的硬核自研实力。如果该数据在生产环境下得到验证，它将直接挑战Groq等主打SRAM高速缓存的硬件厂商。这传达了一个明确信号：在算力受限或成本敏感的背景下，算法与工程的深度耦合（Co-design）才是突破算力瓶颈的最短路径。小米正试图从应用层向基础设施层反向渗透，建立其在AI 2.0时代的底层话语权。行动建议对于算力平台方，应立即评估MiMo架构在算子融合与量化技术上的创新，重新审视通用GPU集群的生命周期与ROI；对于大模型研发团队，应将重心从单纯增加参数量转向提升“激活稀疏度”与“显存带宽利用率”，以应对即将到来的高吞吐推理竞赛。

小米MiMo-V2.5-Pro UltraSpeed：万亿参数模型在标准8卡节点实现千级TPS突破

BAGUA AI