![]()
Fahmi Ruddin Hidayat/iStock
來源:IEEE電氣電子工程師學會
This article is part of our exclusive IEEE Journal Watch series in partnership with IEEE Xplore:https://spectrum.ieee.org/tag/ieee-xplore。
幾年前,在機器翻譯等任務上,人類的表現明顯優于機器學習算法。但如今,兩者之間曾經清晰的能力界限正在變得模糊。
在最近一項研究中,研究人員將多款大語言模型(LLM)的翻譯能力與專業人類譯者進行對比,結果發現:只有擁有10年及以上經驗的持證專家,才能明顯超越這些模型。而在某些翻譯維度上,模型表現反而優于人類。該研究成果已于12月15日發表在《IEEE大數據匯刊》上:https://ieeexplore.ieee.org/document/11300973。
中國杭州西湖大學工學院副院長Yue Zhang指出,過去二十年間,機器學習算法的能力發生了“重大范式轉變”,并特別提到新一代大語言模型的性能實現了巨大飛躍。但這些模型在翻譯任務上的實際表現究竟如何?
他表示:“盡管過去已有模型宣稱達到‘人類水平’,但相關結論一直存在爭議。我們希望跳出模糊的對比,用更科學的方式,把大語言模型的表現和不同層級的專業譯員做對標 —— 從初級到資深譯員逐一校準。”
在該研究中,譯員等級定義如下:
初級譯員:擁有1–2年翻譯行業經驗
中級譯員:擁有3–5年翻譯經驗,或為目標語言母語者
資深譯員:至少10年翻譯經驗,且持有中國翻譯專業資格(水平)考試(CATTI) 權威證書 —— 這是中國翻譯領域的國家級標準。
研究人員讓人類譯者與包括GPT-4、ALMA-R、Deepseek-R1在內的大語言模型,對同一批文本樣本進行翻譯。團隊聘請了6名專業標注人員對譯文質量進行評估,且評估過程中不知道哪些譯文來自人類、哪些來自模型。
研究要求兩組對象完成多種語對翻譯,既有中英這類常見語對,也包括中-印地語這類相對少見的語對。
結果顯示,GPT-4的翻譯能力已與初級、中級人類譯者相當。Yue Zhang指出,這很可能是人類歷史上首次有算法在翻譯質量上達到了人類水平。
在包含約200個句子的文本段落翻譯測試中,研究覆蓋8組語言對。
GPT-4平均出現3.71處重大翻譯錯誤
初級譯員平均3.27處
中級譯員平均3.30處
資深譯員譯文質量最高,平均僅1.83處重大錯誤
在處理小語種/冷門語對(如中譯印地語)時,人類與模型的錯誤率都明顯上升。
不過,人類與模型的錯誤類型截然不同:大語言模型有時會過于直譯、生硬。人類則相反,在面對模糊、歧義表述時,容易過度腦補、自行補全含義。例如,研究中一名人類譯者把短語entering his second year錯誤理解為“嬰兒滿兩歲”,而原文實際是在描述進入第二年的運動員。Yue Zhang評價道:“這既是人類譯者的優勢,也是短板。”
研究顯示,人類譯者比大語言模型更容易出現過度解讀類錯誤。但正是這種對語言語境的深度理解能力,也讓資深譯員能夠精準處理更細膩、更有隱含意義的文本片段。Yue Zhang表示,在需要高精度、文化適配或復雜創意解讀的任務(如文學作品)中,資深人類譯者仍然不可或缺。但他同時指出,已有初步跡象表明這一局面正在改變。
他提到,在研究中:“深度推理模型DeepSeek R1尤其擅長避免重大翻譯錯誤,這意味著具備推理能力的模型(如OpenAI o1、GPT-5、DeepSeek v3.2),或許是縮小與資深人類譯者差距的關鍵。”
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.