拿了30個冠軍的騰訊翻譯模型，實際表現(xiàn)又如何？

2025-09-05 14:54:20　來源: 直面派

北京舉報

分享至

騰訊在Hugging Face上發(fā)布了一個專門用來翻譯的模型，叫做Hunyuan-MT-7B。根據(jù)它的官方介紹，這個翻譯模型在WMT25競賽中，該模型在參與的31個語言類別中有30個獲得了第一名。并且在同等規(guī)模模型中實現(xiàn)了行業(yè)領(lǐng)先的性能。

而Hunyuan-MT-7B的集成模型Hunyuan-MT-Chimera-7B，是業(yè)界首個開源翻譯集成模型，將翻譯質(zhì)量提升至新高度。所謂集成模型，是指一種機(jī)器學(xué)習(xí)方法。它的核心思想是，不依賴單個模型進(jìn)行預(yù)測或判斷，而是將多個模型的預(yù)測結(jié)果結(jié)合起來，從而獲得比任何一個單一模型都更好、更穩(wěn)定的最終結(jié)果。

那么回到翻譯這個事上來，Chimera的邏輯就是讓MT-7B翻譯系統(tǒng)生成多個不同的翻譯候選版本，會分析這些候選版本，將它們各自的優(yōu)點整合起來。最后，生成一個質(zhì)量超越了任何一個單一候選版本的、更優(yōu)的最終譯文。

但是由于官網(wǎng)目前只有MT-7B這一種版本，因此本文只對該版本進(jìn)行了測試。

這里我使用的都是很常見的英語臺詞，出自各種經(jīng)典讀物。

出自《羅密歐與朱麗葉》，原文通常被翻譯為“姓名算得了什么？我們所稱的玫瑰，換個名字還是一樣芳香”

出自《雙城記》，這個翻譯的非常精準(zhǔn)。

出自《了不起的蓋茨比》，同樣也翻譯得非常精準(zhǔn)。

接下來，提高難度，我開始用一些現(xiàn)代英語臺詞來測試模型的翻譯效果。

這句話是《英雄聯(lián)盟》戲命師燼的選定語音，我于殺戮之中盛放，亦如黎明中的花朵。

這句話來自電影《蜘蛛俠》，通常我們翻譯成“能力越大，責(zé)任越大”。

既然英語差不多沒問題，就來試試日語和韓語。

這是《游戲王5D'S》紅蓮魔龍召喚臺詞，王者的鼓動，現(xiàn)在于此列成陣勢！看著這天地鳴動的力量吧！同調(diào)召喚，吾之魂，紅蓮魔龍！日語中的鼓動（こどう）并非全部都是心跳的意思，也可以指脈動、律動、震動等等。

今ここに列をなす，要拆分出來理解。其中“今”代表此時此刻，“ここに”是在這里，指的是地點，“列をなす”是組成一列，而混元將其簡單譯作“此刻在此匯聚”并不是很合適。

在韓語方面，Hunyuan-MT-7B也表現(xiàn)得不錯。

這是K/DA歌曲《POP STAR》中阿卡麗（田小娟）的第一句歌詞，即便是英語和韓語混雜，MT-7B翻譯得依然非常準(zhǔn)確。

如果帶著Emoji一起翻譯，那么混元MT可能會出現(xiàn)吞字的情況。比如圖中的許秀虧桑提圣經(jīng)，混元沒有翻譯出??201。?? 是 ?? ???的縮寫，??是魔法，???是抵抗力，因此 ??201 的意思是魔法抗性是201。

從官方發(fā)布的技術(shù)報告來看，騰訊混元MT設(shè)計的目標(biāo)是提供高質(zhì)量的多語言互譯能力，現(xiàn)階段支持包括中文、英文、日文以及哈薩克語、維吾爾語、蒙古語、藏語等5種中國少數(shù)民族語言在內(nèi)的33種語言之間的雙向翻譯。

混元MT的構(gòu)建采用了一套完整的、系統(tǒng)化的訓(xùn)練框架，這個框架將模型的訓(xùn)練過程分解為幾個前后銜接的階段，旨在逐步提升模型的翻譯能力。整個流程從未經(jīng)特定任務(wù)訓(xùn)練的基礎(chǔ)模型開始，通過一系列專門針對機(jī)器翻譯的優(yōu)化步驟，最終產(chǎn)出具備專業(yè)翻譯能力的模型。

訓(xùn)練流程的第一個環(huán)節(jié)是通用預(yù)訓(xùn)練。這個階段的目標(biāo)是構(gòu)建一個具備廣泛知識和多語言基礎(chǔ)理解能力的基座模型，即Hunyuan-7B-Base。在訓(xùn)練過程中，模型學(xué)習(xí)了包含中文、英文以及其他多種語言在內(nèi)的數(shù)據(jù)，其中非中英文的多語言數(shù)據(jù)量達(dá)到了1.3萬億個tokens。

為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性，研發(fā)團(tuán)隊建立了一套數(shù)據(jù)質(zhì)量評估體系。該體系從知識價值、真實性和寫作風(fēng)格三個維度對文本進(jìn)行打分，并根據(jù)數(shù)據(jù)來源的特性，對不同維度的權(quán)重進(jìn)行調(diào)整。比如翻譯專業(yè)知識的網(wǎng)站，就會優(yōu)先選擇知識價值得分高的數(shù)據(jù)。

同時，為了保證內(nèi)容覆蓋面的均衡，還建立了學(xué)科、行業(yè)和內(nèi)容主題三個層面的標(biāo)簽系統(tǒng)，用以調(diào)整不同領(lǐng)域數(shù)據(jù)的比例，并過濾掉低質(zhì)量或不相關(guān)的內(nèi)容。通過這一階段的訓(xùn)練，Hunyuan-7B-Base模型在通用知識、邏輯推理、數(shù)學(xué)、編程和多語言能力上奠定了基礎(chǔ)。

接下來的第二個環(huán)節(jié)是面向機(jī)器翻譯的預(yù)訓(xùn)練。這個階段在通用基座模型的基礎(chǔ)上，加入了大量為翻譯任務(wù)篩選的單語和雙語語料，目的是使模型的能力向翻譯領(lǐng)域傾斜和深化。單語數(shù)據(jù)主要來源于mC4和OSCAR等公開數(shù)據(jù)集，并經(jīng)過了嚴(yán)格的清洗流程，包括語言識別、文檔級別去重以及使用語言模型過濾掉高困惑度的低質(zhì)量文本。

雙語平行語料則來自O(shè)PUS和ParaCrawl等公開數(shù)據(jù)集，團(tuán)隊使用CometKiwi等無需參考譯文的質(zhì)量評估工具進(jìn)行篩選，以保證句對的質(zhì)量。為了確定不同來源數(shù)據(jù)的最佳混合比例，團(tuán)隊采用了一種名為RegMix的策略，通過在小規(guī)模模型上進(jìn)行實驗，找到能夠使訓(xùn)練損失最小化的數(shù)據(jù)配比，并將其應(yīng)用于正式的訓(xùn)練中。

此外，為了防止模型在學(xué)習(xí)新知識時遺忘通用預(yù)訓(xùn)練階段學(xué)到的能力，訓(xùn)練數(shù)據(jù)中還包含了20%的原始預(yù)訓(xùn)練語料作為重放數(shù)據(jù)。

完成兩個預(yù)訓(xùn)練階段后，模型進(jìn)入第三個環(huán)節(jié)，即后訓(xùn)練階段。這一階段通過監(jiān)督微調(diào)（SFT）和強化學(xué)習(xí)（RL）等技術(shù)，將模型的翻譯能力進(jìn)行精細(xì)化調(diào)優(yōu)和對齊。監(jiān)督微調(diào)分為兩個步驟。第一步使用約300萬句對的平行語料，旨在增強模型的基礎(chǔ)翻譯能力和遵循指令的能力。

這些數(shù)據(jù)來自多個來源，包括Flores-200開發(fā)集、往年的WMT評測測試集、人工標(biāo)注的中文與少數(shù)民族語言互譯數(shù)據(jù)集，以及使用DeepSeek-V3-0324模型生成的合成數(shù)據(jù)。數(shù)據(jù)同樣經(jīng)過CometKiwi和GEMBA等質(zhì)量評估指標(biāo)的篩選。第二步則使用一個規(guī)模更小但質(zhì)量更高的數(shù)據(jù)集（約26.8萬句對）對模型進(jìn)行進(jìn)一步的精煉。這些數(shù)據(jù)經(jīng)過了更嚴(yán)格的篩選過程，并對多輪評估中得分一致性較差的樣本進(jìn)行了人工校驗。

監(jiān)督微調(diào)之后是強化學(xué)習(xí)階段。機(jī)器翻譯任務(wù)的輸出具有語義多樣性，難以用簡單的規(guī)則進(jìn)行評估，這為強化學(xué)習(xí)的應(yīng)用帶來了挑戰(zhàn)。為解決此問題，混元MT采用了GRPO算法，并設(shè)計了一個復(fù)合獎勵函數(shù)。

該獎勵函數(shù)包含三個部分：第一部分是質(zhì)量感知獎勵，使用與人類譯員判斷高度相關(guān)的XCOMET-XXL評分和基于DeepSeek-V3-0324模型的GEMBA框架評分，共同評估翻譯的整體質(zhì)量；第二部分是術(shù)語感知獎勵，它利用詞對齊工具提取源文和譯文中的術(shù)語等關(guān)鍵信息，通過計算二者的重合率來獎勵模型，促使模型更關(guān)注專業(yè)術(shù)語的準(zhǔn)確翻譯；第三部分是重復(fù)懲罰，用于檢測和懲罰模型在訓(xùn)練后期可能出現(xiàn)的重復(fù)輸出，以維持生成內(nèi)容的多樣性和訓(xùn)練的穩(wěn)定性。

經(jīng)過這一系列后訓(xùn)練流程，最終產(chǎn)出的模型即為Hunyuan-MT-7B。

在Hunyuan-MT-7B的基礎(chǔ)上，系統(tǒng)還構(gòu)建了Hunyuan-MT-Chimera-7B模型。該模型采用了一種弱到強的強化學(xué)習(xí)方法。正如前文所述，其核心思想是在推理時，首先生成多個不同的翻譯候選結(jié)果，然后利用一個基于Hunyuan-MT-7B訓(xùn)練的融合模型，將這些候選結(jié)果的優(yōu)點整合起來，生成一個質(zhì)量超越任何單一候選結(jié)果的最終譯文。

這個融合模型的訓(xùn)練同樣使用強化學(xué)習(xí)，其獎勵函數(shù)由XCOMET-XXL評分、DeepSeek-V3-0324評分和重復(fù)懲罰項構(gòu)成。這種方法有效地利用了集成學(xué)習(xí)的優(yōu)勢，在不增加基礎(chǔ)模型參數(shù)量的情況下，進(jìn)一步提升了翻譯的上限。

在性能表現(xiàn)上，混元MT系統(tǒng)在多個公開評測基準(zhǔn)上進(jìn)行了測試。結(jié)果顯示，無論是在WMT24pp還是FLORES-200等通用翻譯測試集上，7B參數(shù)規(guī)模的Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B，其翻譯質(zhì)量均超過了現(xiàn)有的同等規(guī)模開源模型，也優(yōu)于一些知名的商業(yè)翻譯系統(tǒng)和參數(shù)量遠(yuǎn)大于它的通用大模型。

特別是在中文與少數(shù)民族語言互譯這個方向上，混元MT的表現(xiàn)顯著優(yōu)于所有其他對比模型，這體現(xiàn)了其在低資源語言翻譯方向上的針對性優(yōu)化取得了成效。人工評測的結(jié)果也證實了這一點，在包含社交、郵件、購物、導(dǎo)航等多個生活場景的中英互譯測試中，Hunyuan-MT-7B的翻譯質(zhì)量與Gemini-2.5-Pro、DeepSeek-V3-0324等頂尖的大型模型處于同一水平，表明通過面向翻譯任務(wù)的系統(tǒng)性優(yōu)化，中等規(guī)模的模型同樣可以達(dá)到很高的翻譯水準(zhǔn)。

歡迎在評論區(qū)留言~
如需開白請加小編微信：dongfangmark

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.