小米大模型推理速度全球最快！1000 tokens/s是啥概念：官方科普

艾奇百科百科资讯 2026-06-09 20:17:59 1

6月9日消息，日前，小米正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式。

据介绍，这是全球首个在通用GPU上突破1000 tokens/s的万亿参数模型，刷新了旗舰模型的全球最快推理速度。

今日，“小米技术”公众号发文科普了什么是1000 tokens/s，以及这一速度到底有多快。

小米表示，token即词元，是大模型中的计量单位，类似日常买菜时使用的“斤”“两”。

1000 tokens/s也就是1000 Tokens Per Second，简称1000 TPS，意思是每秒可以生成1000个token。

如果把大模型推理想象成“打字”，TPS就是它的“打字速度”，数字越高，生成速度越快。

粗略换算，1个token约等于1到2个汉字，或0.75个英文单词。

也就是说，1000 tokens/s大约相当于每秒生成750个英文单词，或上千个汉字。

作为对比，普通大模型输出速度一般为50到130 TPS，接近人在朗读；国内顶尖大模型输出速度约为400 TPS，已经像快语速播报。

而小米此次上线的UltraSpeed模式，输出速度达到1000 TPS，是人眼阅读速度的约200倍，基本可以做到一眨眼生成一整页A4纸内容。

那么，小米是如何实现这一速度的？

据了解，小米采用了FP4量化技术，只对精度最不敏感的MoE专家模块进行压缩，其余部分保持原有精度，并通过量化感知训练边压缩边补偿，实现模型体积大幅降低，同时尽量保持能力不受影响。

同时，小米还采用DFlash投机解码技术，让小模型一次并行“抢答”一整块token，再由大模型进行无损验证。

猜对就采纳，猜错则打回，最终输出结果与原模型完全一致，但验证方式从“逐字确认”变成了“整块确认”，从而大幅提升效率。

此外，TileRT推理系统也发挥了关键作用。

通过常驻内核和异构流水线，它可以尽可能消除微秒级运行中计算步骤之间的启动、等待、搬数据等空隙，在不改变计算结果的前提下，充分压榨硬件时间。

本文地址： http://27168.cn/31439.html

文章来源：艾奇百科