最近AI自媒體開始踴躍討論各種英文技術名詞的中文新譯法。Token的新譯法紛紛涌現:靈符、模元、信符、道元、智籌、智元、智根、偷啃……
“茴字有幾種寫法”的當代活動版本,從未像現在這樣生機勃勃且不(太)招人嫌。琢磨AI、token和prompt該怎么譯,真的給業界帶來一陣中國溫度。
將token譯為“偷啃”、將AI譯為“硅頭”,固然不太妥當。但現在大家的咬文嚼字熱情,也不是特別必要。專有名詞的翻譯與流行有自生的規則,硬鉆牛角尖費力不討好。
畢竟“中國日均詞元調用量突破140萬億”報道,已經將token和“詞元”的譯法標定。自媒體再有人氣,大不過這種認證。
1
按唐僧的標準,直接音譯對中文無害
現在大家都知道嚴復的“譯事三難”原則是外文譯中文的基礎原則,不過“信、達、雅”雖然本身是外文中譯的黃金標準和典范示例,但不是唯一的標準。中文不是從百多年前才開始有翻譯。
玄奘法師作為翻譯界祖師之一,給過“五不翻”的準則,在五種情況下,可以不對外文中的專屬名詞進行意譯,用音譯也行:
“秘密”,有神秘性質的術語;
“含多義”,多義詞;
“此無”,中文里實在找不到有絲毫相近的近義詞;
“順古”,已經通行的音譯,荀子講過“約定俗成謂之宜,異于約則謂之不宜”;
“生善”,有宣揚譯者推崇的觀念的需要。
![]()
以這“五不翻”,就能看出AI相關字眼如果沒法意譯,直接音譯也無礙。拿天怒人怨、神泣鬼號、最出名的技術名詞翻譯“魯棒性”來說吧,這個音譯詞乍看礙眼、細琢磨卻符合“五不翻”原則。
現在大家都知道“魯棒”是直接音譯“robust”。可考證的源頭,是1979年南開大學涂奉生、齊寅峰教授發表的論文《魯棒(Robust)調節器》和《魯棒調節器的一種設計》。
在此之前,要把“robust”在各種工程學科中“系統在外部壓力、不確定條件、環境特性參數變化下維持原有性能狀態”的含義翻譯出,“寬容性”和“穩健性”的譯法都用過,但都不完全傳達含義。“魯棒”一出,業內都覺得這說法的字義最貼合。
1980年的專業人士評價是:“魯棒有山東大棒之意,倒是音義兼顧”;
“‘音義兼顧’的絕好譯法。因為‘robust調節器’具有‘使系統保持穩定且具有漸進調節特性的能力’,而‘魯’者粗莽也,‘棒’者強之同義也。所以‘魯棒’一詞較好地表明了此類調節器的特征,且較‘粗壯’,‘強壯’等詞生動”。
看,“魯棒”符合了“含多義”、“順古”的音譯原則。
說回AI范疇,大家在琢磨完Token和Prompt該怎么意譯之前,是否該想想如果要意譯每個英文AI字眼,SOTA該不該排位更先?畢竟一個State of the art的縮寫詞非要寫英文字眼、且按英文拼音法連讀,而非直接意譯成“業內前沿”,真是豈有此理。
當然,不譯SOTA也符合“五不翻”原則里的“秘密”、“順古”和“生善”。用當代粗話說,就是大家習慣了,而且這字眼顯得使用者懂行、看不懂的人外行,體現逼格和門檻,你硬碰大家已經形成的語言習慣干嘛。
1
若講究“傳信”且“通達”,Token就是“詞元”
“信達雅”三原則,在翻譯中必有取舍:“信”為根本,但不能執拗;在保證“達”的前提下,“信”可以適當妥協;“雅”就是烤串上的孜然,有當然很好,沒有也過得去。從孔子開始,“文勿勝質”、“勿以辭害意”就是說中文的標準。
Token譯成“詞元”,不僅“順古”,而且在“信”、“達”、“雅”三要素中至少占了兩個,真沒必要繼續琢磨了。
“順古”,是因為《計算機科學技術名詞(第三版)》里,已將AI自然語言處理/計算語言學場景下的Token規范譯為“詞元”;頂級會議論文集和專業刊物論文的中文譯稿、中國高校的計算語言學專業教材,也大都采用“詞元”譯法。你要改,你先跟“中國科學技術名詞審定委員會”和外國的會議舉辦方去杠。
而且Token譯成“詞元”,在“信”的準確性要求、和“達”的曉暢明白要求之間,有最合適的均衡。在byte頂了“字節”的“字”之后,“詞”和“元”的組合詞,就是最切近而且最易理解的“最基礎、不可再分的基本計算單元”表述。
挑戰“詞元”譯法的立論,大都在“Token不能嚴格對應單個字/詞”的技術性質上立基。
是啊是啊,耗千個token生成的是750個左右英語單詞、大模型答不對“strawberry里有幾個r”和“9.11與9.9誰更大”是因為token的分隔原理和自然人說話不一樣,你知道我知道大家都知道。但揪著這些技術細節,去改已經通用的譯名,顯你讀書多、能耐大嗎?
硬要追求譯詞指代的涵義既全面又精準,那Token用區塊鏈時代的“代幣”譯法也比新造好。
畢竟從黃仁勛到騰訊、阿里,大廠和大老板們現在都說token消耗量與生產效能掛鉤、要把token配比薪資發給員工。管Token叫“代幣”,這下又沒毛病了。拿南京方言口音念,還有一絲諧謔的惡趣味,“雅”這塊也顧及。
1
譯詞越短越好,Prompt只會成為“提示”
中譯技術專屬名詞,音譯敵不過意譯、最終被意譯取代的例子不少,大都符合兩個條件:一是音譯實在太不知所謂,二是意譯比音譯短、且有最短的選項。
音譯讓人不曉得在說啥的典范,就是嚴復本人。大清國的賜進士老爺既要翻譯英文書,又討厭當時直接搬運“和式漢語”字眼的“東學”風氣,就只有用音譯來完成專有名詞的英譯中任務。
“幺匿”、“拓都”、“涅伏”,嚴復獨創的這些音譯看上去比“魯棒”不知所謂得多。別說現在,近百年前的知識分子一眼也猜不透這是在說啥,不讀他的譯作,誰也不知道這是在翻譯“unit”、“total”、“nerve”。當時大人物的翻譯被收入入學考試之后,直接讓未來大人物郭沫若哭爹叫娘:“我的媽!這樣偉大的一個難題,實在足以把人難倒。”
當“幺匿”、“拓都”、“涅伏”被中文使用者拋棄,“nerve”的中文對應詞沒有退回到譚嗣同和洋教士版本的“腦氣筋”,“unit”、“total”、“nerve”譯詞使用了日本人的“個體”、“總體”、“神經”。原因不消解釋,三個字的單詞永遠沒有兩個字的單詞更受歡迎。
如果直接音譯更準確但更拗口,中文使用者會很開明地使用意思不那么準確、而字面更簡潔的意譯。比如“伯里璽天德”是清國翻譯的精準表述:“權力效能比皇上強、但禮儀尊貴不如皇上的頭號大官”,“總統”是日本人譯法“大統領”的縮寫。“伯里璽天德”縮成“總統”,意思上不夠準確,但后者迅速流行。
哪種譯法在比較保真的前提下更短,普羅大眾就會選擇哪種。“西敏寺”比“威斯敏斯特”好用,是因為既傳遞“Westminster這地方是古倫敦西界以外更西”的意思,又更簡短。“拍立得”、“肯德基”,更是典范。現在最鉆牛角尖的中國人也不會用“即時成像相機”、“肯塔基州炸雞”來說這兩種商品。
這條原則應用在AI業界,就是Prompt即使不被譯成“提示詞”,也不可能譯成其他花里胡哨、附庸風雅的硬拗,只會被縮寫成“提示”或“提詞”。這種語言現象正在發生,在阿里云的官方網站上就有出現。
![]()
現在“生成-對抗網絡”這個AI概念不流行了,不然還會給這種語言現象添上更有趣的注解:看大家是會使用“生成-對抗網絡”這個詞,還是直接把英文縮寫GAN拿中文拼音法讀出來。
畢竟現在網店商家拿AI生成的假圖當成門面照片、商品實拍,網購顧客拿AI生成的假圖當退款憑據,已成大眾新潮流。這種真人們相互做“生成器-判別器”對抗的生活,真的是很GAN啊。
文章轉載于直面AI
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.