ESSAY
Token 在中文里活了好幾年,一直沒有一個確定的名字
詞元、令牌、代幣、標記、托肯,五六個譯名同時流通,誰也沒有把其他幾個按下去。上周我還在那兒一本正經地論證 Token 應該叫「」還是「」
3月23日,國家數據局局長劉烈宏在中國發展高層論壇上直接給了答案
Token,詞元
第二天國新辦發布會,又說了一遍。同一個詞,同一個讀數
01
這個譯名本身
「詞元」不新。2021年國內 NLP 學界就在推這個翻譯,復旦邱錫鵬教授的教材里用的就是這個詞。但一直沒有真正流通起來
原因也簡單,那時候大多數人不需要知道 Token 是什么
「詞元」的好處很明顯。「元」在中文術語體系里語感穩定,指向最小的、不可再分的基礎單位。像素、字節,都是這個構詞邏輯。「詞」把它錨定在語言處理的范疇里,對于了解大模型基本原理的人來說,望文知義
雖然 Token 的粒度不總是「詞」。一個 Token 可以是半個字、一個標點、一段字節序列,多模態場景下還可以是圖像的一個 patch 或者音頻的一個 frame。
但話說回來,「電話」也不只用來說話了,「計算機」做的事情早就超出了計算的范疇。術語翻譯追求的是認知入口的準確性,不是定義的完備性
從這個角度看,「詞元」夠用
02
之前的討論
也是前幾天,清華副校長楊斌提了另一個方案,「模元」
理由是「模」同時指向大模型和多模態,比「詞」的覆蓋面更大。而且「模元」和「字節」構詞法一脈相承,兩個字,念起來順
網上還有人在用「話費」,emmmm....個人覺得,很合理
一個譯名真正被接受,在于是誰在用、多少人在用、用了多久
03
為什么是現在
比起叫什么名字,更值得看的是另一個問題:這件事為什么在 2026 年 3 月突然緊迫了?
對此,國家數據局局長劉烈宏給了一組數據
中國日均 TOKEN 調用量 1000 億 2024 初 100 萬億 2025 底 140 萬億 2026.03 兩年,一千倍
更刺激的是,有模型企業創下了 20 天 收入超越 2025 年全年總收入的紀錄
Token 已經不是一個需要向非技術人群解釋的生僻術語了。它是企業的成本結構,API 的定價單位,投資人盯著看的核心指標
阿里巴巴 3 月 16 日成立了 Alibaba Token Hub 事業群,吳泳銘直管。黃仁勛在 GTC 2026 上花了兩個多小時講 Token 經濟學,芯片參數反而成了配角。硅谷工程師的 offer 里開始標注 Token 預算,和牙科保險并列。有人每個月消耗價值數千美元的 Token 額度,就為了讓自己的日常工作盡可能跑在自動化上
一個概念,當它出現在薪資結構、企業財報、國務院新聞發布會上的時候,它就不能繼續沒有中文名了
不是因為翻譯重要。是因為這個東西本身變得太重要了,重要到它的名字不能繼續飄著
04
從 bit 到 Token
上一個時代的基礎計量單位是 bit。Shannon 1948 年定義了它,然后 bit 統治了整個信息時代。硬盤容量、網絡帶寬、通信協議,底層都在數 bit
Token 正在接這個位置。不是替代 bit,是在它的上層建了一套新的度量體系。bit 測量數據的體積,Token 測量智能的代價
你問模型一個問題,消耗的不是存儲空間,是 Token。企業評估 AI 的投入產出比,算的不是帶寬成本,是每個 Token 的 ROI。國家統計 AI 產業規模,報的不是數據量,是日均 Token 調用量
計量單位變了,說明底層在換
05
上周寫了兩篇,一篇論證 Token 應該叫「」,一篇論證它應該叫「,兩篇都寫得很認真
現在,Token 有了確定的名字、確定的調用量、確定的賬單,它的確不再是量子位了
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.