![]()
新智元報道
編輯:KingHZ
【新智元導讀】谷歌強勢回應OpenAI:開源TranslateGemma模型,支持55種語言,效率驚人!12B參數超越27B基線,手機端輕松運行,真正速通「巴別塔」。
語言的邊界,正被AI一一抹平。
OpenAI悄悄發布了翻譯產品ChatGPT Translate,谷歌則祭出強勢回應——
TranslateGemma,一個能在手機上翻55種語言的開源模型。
AI正在徐徐開啟巴別塔之門。
從語義潤色到圖文混合,從文風調節到設備端運行,AI翻譯不再是「你說我譯」,而是對人類溝通方式的全新重構。
不同于OpenAI幾乎悄無聲息的上線ChatGPT翻譯,谷歌全網高調宣布發布了支持55種語言的開源翻譯模型TranslateGemma。
![]()
![]()
![]()
![]()
這的確值得一說,AI正在降低溝通障礙,全網好評不斷。
![]()
![]()
![]()
ChatGPT:偷襲谷歌翻譯
近日,OpenAI首次挑戰谷歌翻譯。
一款名為ChatGPT Translate的獨立翻譯工具,低調上線了。
OpenAI 幾乎沒有任何公開宣傳,目前都不知道ChatGPT Translate具體何時上線。
互聯網檔案館(Internet Archive)的Wayback Machine上有一張11月份的網頁快照:
https://web.archive.org/web/20251119103023/https://chatgpt.com/translate/
看起來與當前頁面幾乎一致,但這也可能只是 OpenAI 在測試該工具的線上版本。
該工具支持超過 50 種語言,基礎界面與谷歌翻譯高度相似。
![]()
![]()
左右滑動查看
但在功能邏輯上,ChatGPT翻譯引入了生成式AI的核心優勢,最大亮點在于翻譯后的「二次加工」能力:
用戶可以通過預設的提示詞選項,一鍵調整譯文的語氣,如「更流利」、「商務正式」、「兒童易懂」或「學術風格」,從而實現針對不同受眾的精準表達。
然而,作為初版產品,它目前在功能完整性上仍落后于谷歌,暫不支持文檔、網頁及手寫翻譯、圖片翻譯功能。
目前,ChatGPT Translate僅以網頁形式存在,并沒有專門的App。
因此,離線使用似乎仍無從談起。
如果沒有一款支持端側翻譯的應用,ChatGPT Translate對于在無網絡的偏遠地區旅行的用戶來說可能并不實用。
另外,它也尚未提供實時對話翻譯功能。相比之下,谷歌的Pixel 10現在已經支持通話語音實時翻譯。
此前,ChatGPT已可以用于多語言翻譯任務,但這還是OpenAI第一次推出獨立的AI翻譯服務,而且無需登錄可免費使用。
![]()
2023年,沃頓商學院教授Ethan Mollick就注意到,ChatGPT翻譯能力出色:
盡管ChatGPT就是為了英語中使用而構建,并不是翻譯工具,但在一些小規模測試中,在翻譯能力上,ChatGPT經常優于Google Translate(谷歌翻譯)。
![]()
2024年,美國明尼蘇達州政府利用ChatGPT加快并擴大面向非英語居民的翻譯服務
明尼蘇達州企業翻譯辦公室使用ChatGPT將政府文件翻譯成多種語言
人工智能輔助流程將翻譯時間從數周縮短至48小時以內
自實施以來,該辦公室已處理了3000份翻譯請求,累計翻譯超過200萬字
![]()
去年,網友使用過ChatGPT翻譯功能后,直呼:頭皮發麻,這就是雙語實時翻譯天花板。
![]()
ChatGPT Translate的問世標志著翻譯工具正從單純的「語言轉換」向注重語境與交互的「智能適應」方向演進。
不過,盡管這些語氣與語境方面的能力頗具吸引力,ChatGPT Translate與谷歌翻譯相比仍顯得有些「半成品」——
后者已發展了數十年,最近還通過基于Gemini的改版進一步增強了對習語和俚語理解的支持。
而且,谷歌這次直接開源了最新的翻譯AI模型,直面ChatGPT的挑戰。
![]()
谷歌TranslateGemma讓手機翻譯55種語言
基于Gemma 3,谷歌發布了開源翻譯模型TranslateGemma,它非常酷:
支持55種語言,并在近500種附加語言對上進行了訓練,以供進一步研究
效率出色:12B模型超越了27B基線模型,在參數數量不到一半的情況下實現了更優的性能
保留多模態能力:能夠翻譯圖像中的文本,而無需特定的多模態訓練
靈活的部署選項:4B適用于移動設備/邊緣設備,12B適用于消費級筆記本電腦,27B適用于云GPU/TPU
![]()
在對模型的技術評估中,最令人矚目的發現是它們的效率表現。
12B參數規模的TranslateGemma模型,在WMT24++基準測試中使用 MetricX 衡量后,性能超越了27B的Gemma 3基線模型。
這對開發者來說無疑是巨大利好:只需不到一半的參數量,就能實現高度保真(high-fidelity)的翻譯質量。
這項效率上的突破,意味著可以在不犧牲準確性的前提下,實現更高的吞吐量與更低的延遲。
同樣值得注意的是,4B模型的表現已接近原本的12B基線水平,這使得它成為移動端推理的理想選擇。
![]()
這意味著開發者可以構建完全在設備端運行的低延遲翻譯工具。
TranslateGemma的背后,源自Gemini模型體系。
之所以能實現如此高密度的智能表現,關鍵在于一種專門設計的雙階段微調流程,將Gemini模型的「直覺」成功蒸餾并融入開放架構中。
第一階段:監督式微調(SFT)
他們以Gemma 3的基礎模型為起點,使用多樣化的平行語料進行微調。這些語料既包含由人工翻譯的高質量文本,也涵蓋由最先進的Gemini模型生成的高質量合成譯文,覆蓋范圍廣泛,甚至在低資源語言上也能保持出色的翻譯保真度。
第二階段:強化學習優化(RL)
為了進一步提升翻譯質量,他們引入了創新性的強化學習環節。在這一階段,他們構建了一套獎勵模型的集成系統,包括MetricX-QE和AutoMQM等先進評估指標,引導模型生成更具上下文準確性、聽起來更自然的譯文。
此外,TranslateGemma延續了Gemma 3在多模態方面的強大能力。
在Vistra圖像翻譯基準上的測試表明,即使在訓練過程中并未專門進行多模態微調,其文本翻譯能力的提升也顯著增強了模型處理圖像中文字翻譯的表現。
這意味著,TranslateGemma 在文字與圖像的交叉處理能力上,也具有天然的優勢。
這場由OpenAI與谷歌引燃的AI翻譯之爭,早已超越「誰更準確」的爭議,而是走向「誰能更像人、誰能真正懂人」的深層較量。
從語言模型到語境模型,再到認知協同系統,AI正在讓世界重寫溝通規則。
而真正的贏家,或許是全人類。
參考資料:
https://blog.google/innovation-and-ai/technology/developers-tools/translategemma/
https://www.androidauthority.com/chatgpt-translate-3632584/
https://chatgpt.com/zh-Hans-CN/translate/
https://x.com/GoogleDeepMind/status/2011848249850630363
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.