今日,中国政府网转发了《人民日报》援引国家数据局的文章,正式在官方语境下将大模型基础计量单位“Token”定名为“词元”。 报道披露,我国人工智能行业日均词元调用量已突破140万亿次。这一权威定名不仅终结了长期以来学术界与产业界关于Token中文译名的争议,也标志着大模型技术标准语境在国家层面的进一步规范化。
此前,针对Token的命名,行业内曾出现多种竞争性方案。腾讯研究院学者杨斌提出的“模元”一度引发广泛讨论,随后由百川智能创始人王小川、潞晨科技创始人尤洋及原清华大学副教授胡翌霖等专家力荐的“智元”方案,因强调Token作为“通用智能”而非单纯“通用计算”单位的特性,在社交平台获得了极高的声量。
然而,官方最终采用的“词元”更侧重于技术底层逻辑。据官方解释,词元是AI理解人类语言的最小单位,其切分粒度介于字与词之间,能够更精准地覆盖大模型处理文本时的语义切片。随着调用量规模迈向140万亿的历史性关口,统一的术语规范将有助于降低行业沟通成本,为后续AI基础设施的统计量化与政策制定夯实基础。





