網易首頁 > 網易號 > 正文申請入駐

還在討論token怎么翻譯？吃我一魯棒先！

2026-03-25 09:13:16　來源: 硅星人

北京舉報

分享至

最近AI自媒體開始踴躍討論各種英文技術名詞的中文新譯法。Token的新譯法紛紛涌現：靈符、模元、信符、道元、智籌、智元、智根、偷啃……

“茴字有幾種寫法”的當代活動版本，從未像現在這樣生機勃勃且不（太）招人嫌。琢磨AI、token和prompt該怎么譯，真的給業界帶來一陣中國溫度。

將token譯為“偷啃”、將AI譯為“硅頭”，固然不太妥當。但現在大家的咬文嚼字熱情，也不是特別必要。專有名詞的翻譯與流行有自生的規則，硬鉆牛角尖費力不討好。

畢竟“中國日均詞元調用量突破140萬億”報道，已經將token和“詞元”的譯法標定。自媒體再有人氣，大不過這種認證。

按唐僧的標準，直接音譯對中文無害

現在大家都知道嚴復的“譯事三難”原則是外文譯中文的基礎原則，不過“信、達、雅”雖然本身是外文中譯的黃金標準和典范示例，但不是唯一的標準。中文不是從百多年前才開始有翻譯。

玄奘法師作為翻譯界祖師之一，給過“五不翻”的準則，在五種情況下，可以不對外文中的專屬名詞進行意譯，用音譯也行：

“秘密”，有神秘性質的術語；

“含多義”，多義詞；

“此無”，中文里實在找不到有絲毫相近的近義詞；

“順古”，已經通行的音譯，荀子講過“約定俗成謂之宜，異于約則謂之不宜”；

“生善”，有宣揚譯者推崇的觀念的需要。

以這“五不翻”，就能看出AI相關字眼如果沒法意譯，直接音譯也無礙。拿天怒人怨、神泣鬼號、最出名的技術名詞翻譯“魯棒性”來說吧，這個音譯詞乍看礙眼、細琢磨卻符合“五不翻”原則。

現在大家都知道“魯棒”是直接音譯“robust”。可考證的源頭，是1979年南開大學涂奉生、齊寅峰教授發表的論文《魯棒（Robust）調節器》和《魯棒調節器的一種設計》。

在此之前，要把“robust”在各種工程學科中“系統在外部壓力、不確定條件、環境特性參數變化下維持原有性能狀態”的含義翻譯出，“寬容性”和“穩健性”的譯法都用過，但都不完全傳達含義。“魯棒”一出，業內都覺得這說法的字義最貼合。

1980年的專業人士評價是：“魯棒有山東大棒之意，倒是音義兼顧”；

“‘音義兼顧’的絕好譯法。因為‘robust調節器’具有‘使系統保持穩定且具有漸進調節特性的能力’，而‘魯’者粗莽也，‘棒’者強之同義也。所以‘魯棒’一詞較好地表明了此類調節器的特征，且較‘粗壯’，‘強壯’等詞生動”。

看，“魯棒”符合了“含多義”、“順古”的音譯原則。

說回AI范疇，大家在琢磨完Token和Prompt該怎么意譯之前，是否該想想如果要意譯每個英文AI字眼，SOTA該不該排位更先？畢竟一個State of the art的縮寫詞非要寫英文字眼、且按英文拼音法連讀，而非直接意譯成“業內前沿”，真是豈有此理。

當然，不譯SOTA也符合“五不翻”原則里的“秘密”、“順古”和“生善”。用當代粗話說，就是大家習慣了，而且這字眼顯得使用者懂行、看不懂的人外行，體現逼格和門檻，你硬碰大家已經形成的語言習慣干嘛。

若講究“傳信”且“通達”，Token就是“詞元”

“信達雅”三原則，在翻譯中必有取舍：“信”為根本，但不能執拗；在保證“達”的前提下，“信”可以適當妥協；“雅”就是烤串上的孜然，有當然很好，沒有也過得去。從孔子開始，“文勿勝質”、“勿以辭害意”就是說中文的標準。

Token譯成“詞元”，不僅“順古”，而且在“信”、“達”、“雅”三要素中至少占了兩個，真沒必要繼續琢磨了。

“順古”，是因為《計算機科學技術名詞（第三版）》里，已將AI自然語言處理/計算語言學場景下的Token規范譯為“詞元”；頂級會議論文集和專業刊物論文的中文譯稿、中國高校的計算語言學專業教材，也大都采用“詞元”譯法。你要改，你先跟“中國科學技術名詞審定委員會”和外國的會議舉辦方去杠。

而且Token譯成“詞元”，在“信”的準確性要求、和“達”的曉暢明白要求之間，有最合適的均衡。在byte頂了“字節”的“字”之后，“詞”和“元”的組合詞，就是最切近而且最易理解的“最基礎、不可再分的基本計算單元”表述。

挑戰“詞元”譯法的立論，大都在“Token不能嚴格對應單個字/詞”的技術性質上立基。

是啊是啊，耗千個token生成的是750個左右英語單詞、大模型答不對“strawberry里有幾個r”和“9.11與9.9誰更大”是因為token的分隔原理和自然人說話不一樣，你知道我知道大家都知道。但揪著這些技術細節，去改已經通用的譯名，顯你讀書多、能耐大嗎？

硬要追求譯詞指代的涵義既全面又精準，那Token用區塊鏈時代的“代幣”譯法也比新造好。

畢竟從黃仁勛到騰訊、阿里，大廠和大老板們現在都說token消耗量與生產效能掛鉤、要把token配比薪資發給員工。管Token叫“代幣”，這下又沒毛病了。拿南京方言口音念，還有一絲諧謔的惡趣味，“雅”這塊也顧及。

譯詞越短越好，Prompt只會成為“提示”

中譯技術專屬名詞，音譯敵不過意譯、最終被意譯取代的例子不少，大都符合兩個條件：一是音譯實在太不知所謂，二是意譯比音譯短、且有最短的選項。

音譯讓人不曉得在說啥的典范，就是嚴復本人。大清國的賜進士老爺既要翻譯英文書，又討厭當時直接搬運“和式漢語”字眼的“東學”風氣，就只有用音譯來完成專有名詞的英譯中任務。

“幺匿”、“拓都”、“涅伏”，嚴復獨創的這些音譯看上去比“魯棒”不知所謂得多。別說現在，近百年前的知識分子一眼也猜不透這是在說啥，不讀他的譯作，誰也不知道這是在翻譯“unit”、“total”、“nerve”。當時大人物的翻譯被收入入學考試之后，直接讓未來大人物郭沫若哭爹叫娘：“我的媽！這樣偉大的一個難題，實在足以把人難倒。”

當“幺匿”、“拓都”、“涅伏”被中文使用者拋棄，“nerve”的中文對應詞沒有退回到譚嗣同和洋教士版本的“腦氣筋”，“unit”、“total”、“nerve”譯詞使用了日本人的“個體”、“總體”、“神經”。原因不消解釋，三個字的單詞永遠沒有兩個字的單詞更受歡迎。

如果直接音譯更準確但更拗口，中文使用者會很開明地使用意思不那么準確、而字面更簡潔的意譯。比如“伯里璽天德”是清國翻譯的精準表述：“權力效能比皇上強、但禮儀尊貴不如皇上的頭號大官”，“總統”是日本人譯法“大統領”的縮寫。“伯里璽天德”縮成“總統”，意思上不夠準確，但后者迅速流行。

哪種譯法在比較保真的前提下更短，普羅大眾就會選擇哪種。“西敏寺”比“威斯敏斯特”好用，是因為既傳遞“Westminster這地方是古倫敦西界以外更西”的意思，又更簡短。“拍立得”、“肯德基”，更是典范。現在最鉆牛角尖的中國人也不會用“即時成像相機”、“肯塔基州炸雞”來說這兩種商品。

這條原則應用在AI業界，就是Prompt即使不被譯成“提示詞”，也不可能譯成其他花里胡哨、附庸風雅的硬拗，只會被縮寫成“提示”或“提詞”。這種語言現象正在發生，在阿里云的官方網站上就有出現。

現在“生成-對抗網絡”這個AI概念不流行了，不然還會給這種語言現象添上更有趣的注解：看大家是會使用“生成-對抗網絡”這個詞，還是直接把英文縮寫GAN拿中文拼音法讀出來。

畢竟現在網店商家拿AI生成的假圖當成門面照片、商品實拍，網購顧客拿AI生成的假圖當退款憑據，已成大眾新潮流。這種真人們相互做“生成器-判別器”對抗的生活，真的是很GAN啊。

文章轉載于直面AI

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.