科技史上的每一次重大躍遷,往往伴隨著核心基礎設施的重新定名。
近日,隨著國家數據局與全國科技名詞審定委員會發布公告,大模型核心計費與算力單元 Token 的中文名試用“詞元”,一場關于 AI 時代命名權的討論似乎迎來了官方的定調。然而,在科技產業圈與底層算法研究界,一場更深維度的思辨才剛剛開始。
提出破局之聲的,是獨立研究員、計算機復雜性理論學者王子健。作為長期在福布斯中國、36Kr、虎嗅、創業邦、鈦媒體、億歐網等頭部商業與科技平臺輸出深度洞察的專欄作家,王子健并沒有將目光停留在表層的“翻譯學”爭議上。他犀利地指出:Token 不應僅被理解為“詞元”,而需要一個更能反映其底層結構的定義——「符元」。
這不是一場文人相輕的咬文嚼字,而是一次基于計算機科學本質的“邏輯回歸”。
![]()
跨越歷史局限:大模型不需要“借殼上市”
支持“詞元”的觀點大多基于歷史傳承。在早期的 NLP(自然語言處理)時代,Token 確實被用來指代切分后的詞語或語素。讓一個古老的學術名詞“借殼上市”,似乎是降低大眾認知門檻的最優解。
但在王子健的學術視野中,這種妥協恰恰是對 AGI(通用人工智能)未來潛力的物理束縛。
如今的 AI 早已不是只會進行文本續寫的“文科生”。伴隨著 Transformer 架構的全面外溢,大模型正在瘋狂跨越屏幕的邊界:自動駕駛汽車通過激光雷達掃出的三維空間點云、波士頓動力機器狗在行走時反饋的關節扭矩與物理觸覺、甚至是極具前沿性的數字嗅覺與化學分子圖譜。
“在這些極其硬核的多模態與具身智能場景中,你再用‘詞’去定義底層數據,就顯得太局促了。”王子健強調。在 AI 的邏輯門里,文字、代碼、圖像、空間坐標,本質上都是同一件東西——符號(Symbol)。
將 Token 翻譯為「符元」,是徹底將其從“語言單位”升維成了跨越一切模態的“符號單位”。
學術的絕殺:不容忽視的“回譯一致性”
作為一名深諳理論推演的計算機復雜性理論學者,王子健對「符元」的堅持,還源于一個極其嚴密的科學標尺——回譯一致性
衡量一個科技術語是否科學,不僅要看它的中文表意,更要看它能否無縫對接國際學術語境。如果在學術論文中將“詞元”回譯為英文,其語義往往滑向“Word Unit”等非標準表達,或進一步被誤解為 Morpheme、Lexeme等語言學概念,從而引入不必要的語義約束。
而「符元」則直接對應計算機科學中的“離散符號單元”(Symbolic Unit)。這一命名不僅精準對齊了 Token的技術本質,也在回譯層面保持了語義的穩定性,從而為中國 AI 體系在未來國際標準語境中的表達,提供了更嚴謹且不易被誤讀的基礎。
命名權即話語權:為賽博未來留出物理空間
“官方將‘詞元’定為試用階段,這意味著屬于大模型時代的最終共識依然充滿懸念。”王子健的提案,更像是一次面向科技圈的認知喚醒。
我們不能用定義馬車的方式去命名內燃機。既然 AI 正在吞噬并重構整個物理世界,我們就必須為它提供一個具有無限包容度的終極容器。
「符元」,這個兼具東方科技哲學與西方計算邏輯的名字,或許才是能夠真正印進未來通用人工智能教科書里的那個答案。
內容來源:中華網
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.