<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      拿了30個冠軍的騰訊翻譯模型,實際表現又如何?

      0
      分享至


      騰訊在Hugging Face上發布了一個專門用來翻譯的模型,叫做Hunyuan-MT-7B。根據它的官方介紹,這個翻譯模型在WMT25競賽中,該模型在參與的31個語言類別中有30個獲得了第一名。并且在同等規模模型中實現了行業領先的性能。

      而Hunyuan-MT-7B的集成模型Hunyuan-MT-Chimera-7B,是業界首個開源翻譯集成模型,將翻譯質量提升至新高度。所謂集成模型,是指一種機器學習方法。它的核心思想是,不依賴單個模型進行預測或判斷,而是將多個模型的預測結果結合起來,從而獲得比任何一個單一模型都更好、更穩定的最終結果。

      那么回到翻譯這個事上來,Chimera的邏輯就是讓MT-7B翻譯系統生成多個不同的翻譯候選版本,會分析這些候選版本,將它們各自的優點整合起來。最后,生成一個質量超越了任何一個單一候選版本的、更優的最終譯文。

      但是由于官網目前只有MT-7B這一種版本,因此本文只對該版本進行了測試。

      01

      這里我使用的都是很常見的英語臺詞,出自各種經典讀物。


      出自《羅密歐與朱麗葉》,原文通常被翻譯為“姓名算得了什么?我們所稱的玫瑰,換個名字還是一樣芳香”


      出自《雙城記》,這個翻譯的非常精準。


      出自《了不起的蓋茨比》,同樣也翻譯得非常精準。

      接下來,提高難度,我開始用一些現代英語臺詞來測試模型的翻譯效果。


      這句話是《英雄聯盟》戲命師 燼的選定語音,我于殺戮之中盛放,亦如黎明中的花朵。


      這句話來自電影《蜘蛛俠》,通常我們翻譯成“能力越大,責任越大”。

      既然英語差不多沒問題,就來試試日語和韓語。


      這是《游戲王5D'S》紅蓮魔龍召喚臺詞,王者的鼓動,現在于此列成陣勢!看著這天地鳴動的力量吧!同調召喚,吾之魂,紅蓮魔龍!日語中的鼓動(こどう)并非全部都是心跳的意思,也可以指脈動、律動、震動等等。

      今ここに列をなす,要拆分出來理解。其中“今”代表此時此刻,“ここに”是在這里,指的是地點,“列をなす”是組成一列,而混元將其簡單譯作“此刻在此匯聚”并不是很合適。

      在韓語方面,Hunyuan-MT-7B也表現得不錯。


      這是K/DA歌曲《POP STAR》中阿卡麗(田小娟)的第一句歌詞,即便是英語和韓語混雜,MT-7B翻譯得依然非常準確。


      如果帶著Emoji一起翻譯,那么混元MT可能會出現吞字的情況。比如圖中的許秀虧桑提圣經,混元沒有翻譯出??201。?? 是 ?? ???的縮寫,??是魔法,???是抵抗力,因此 ??201 的意思是魔法抗性是201。

      02

      從官方發布的技術報告來看,騰訊混元MT設計的目標是提供高質量的多語言互譯能力,現階段支持包括中文、英文、日文以及哈薩克語、維吾爾語、蒙古語、藏語等5種中國少數民族語言在內的33種語言之間的雙向翻譯。

      混元MT的構建采用了一套完整的、系統化的訓練框架,這個框架將模型的訓練過程分解為幾個前后銜接的階段,旨在逐步提升模型的翻譯能力。整個流程從未經特定任務訓練的基礎模型開始,通過一系列專門針對機器翻譯的優化步驟,最終產出具備專業翻譯能力的模型。

      訓練流程的第一個環節是通用預訓練。這個階段的目標是構建一個具備廣泛知識和多語言基礎理解能力的基座模型,即Hunyuan-7B-Base。在訓練過程中,模型學習了包含中文、英文以及其他多種語言在內的數據,其中非中英文的多語言數據量達到了1.3萬億個tokens。


      為了確保訓練數據的質量和多樣性,研發團隊建立了一套數據質量評估體系。該體系從知識價值、真實性和寫作風格三個維度對文本進行打分,并根據數據來源的特性,對不同維度的權重進行調整。比如翻譯專業知識的網站,就會優先選擇知識價值得分高的數據。

      同時,為了保證內容覆蓋面的均衡,還建立了學科、行業和內容主題三個層面的標簽系統,用以調整不同領域數據的比例,并過濾掉低質量或不相關的內容。通過這一階段的訓練,Hunyuan-7B-Base模型在通用知識、邏輯推理、數學、編程和多語言能力上奠定了基礎。

      接下來的第二個環節是面向機器翻譯的預訓練。這個階段在通用基座模型的基礎上,加入了大量為翻譯任務篩選的單語和雙語語料,目的是使模型的能力向翻譯領域傾斜和深化。單語數據主要來源于mC4和OSCAR等公開數據集,并經過了嚴格的清洗流程,包括語言識別、文檔級別去重以及使用語言模型過濾掉高困惑度的低質量文本。

      雙語平行語料則來自OPUS和ParaCrawl等公開數據集,團隊使用CometKiwi等無需參考譯文的質量評估工具進行篩選,以保證句對的質量。為了確定不同來源數據的最佳混合比例,團隊采用了一種名為RegMix的策略,通過在小規模模型上進行實驗,找到能夠使訓練損失最小化的數據配比,并將其應用于正式的訓練中。

      此外,為了防止模型在學習新知識時遺忘通用預訓練階段學到的能力,訓練數據中還包含了20%的原始預訓練語料作為重放數據。

      完成兩個預訓練階段后,模型進入第三個環節,即后訓練階段。這一階段通過監督微調(SFT)和強化學習(RL)等技術,將模型的翻譯能力進行精細化調優和對齊。監督微調分為兩個步驟。第一步使用約300萬句對的平行語料,旨在增強模型的基礎翻譯能力和遵循指令的能力。

      這些數據來自多個來源,包括Flores-200開發集、往年的WMT評測測試集、人工標注的中文與少數民族語言互譯數據集,以及使用DeepSeek-V3-0324模型生成的合成數據。數據同樣經過CometKiwi和GEMBA等質量評估指標的篩選。第二步則使用一個規模更小但質量更高的數據集(約26.8萬句對)對模型進行進一步的精煉。這些數據經過了更嚴格的篩選過程,并對多輪評估中得分一致性較差的樣本進行了人工校驗。

      監督微調之后是強化學習階段。機器翻譯任務的輸出具有語義多樣性,難以用簡單的規則進行評估,這為強化學習的應用帶來了挑戰。為解決此問題,混元MT采用了GRPO算法,并設計了一個復合獎勵函數。


      該獎勵函數包含三個部分:第一部分是質量感知獎勵,使用與人類譯員判斷高度相關的XCOMET-XXL評分和基于DeepSeek-V3-0324模型的GEMBA框架評分,共同評估翻譯的整體質量;第二部分是術語感知獎勵,它利用詞對齊工具提取源文和譯文中的術語等關鍵信息,通過計算二者的重合率來獎勵模型,促使模型更關注專業術語的準確翻譯;第三部分是重復懲罰,用于檢測和懲罰模型在訓練后期可能出現的重復輸出,以維持生成內容的多樣性和訓練的穩定性。

      經過這一系列后訓練流程,最終產出的模型即為Hunyuan-MT-7B。

      03

      在Hunyuan-MT-7B的基礎上,系統還構建了Hunyuan-MT-Chimera-7B模型。該模型采用了一種弱到強的強化學習方法。正如前文所述,其核心思想是在推理時,首先生成多個不同的翻譯候選結果,然后利用一個基于Hunyuan-MT-7B訓練的融合模型,將這些候選結果的優點整合起來,生成一個質量超越任何單一候選結果的最終譯文。

      這個融合模型的訓練同樣使用強化學習,其獎勵函數由XCOMET-XXL評分、DeepSeek-V3-0324評分和重復懲罰項構成。這種方法有效地利用了集成學習的優勢,在不增加基礎模型參數量的情況下,進一步提升了翻譯的上限。

      在性能表現上,混元MT系統在多個公開評測基準上進行了測試。結果顯示,無論是在WMT24pp還是FLORES-200等通用翻譯測試集上,7B參數規模的Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B,其翻譯質量均超過了現有的同等規模開源模型,也優于一些知名的商業翻譯系統和參數量遠大于它的通用大模型。

      特別是在中文與少數民族語言互譯這個方向上,混元MT的表現顯著優于所有其他對比模型,這體現了其在低資源語言翻譯方向上的針對性優化取得了成效。人工評測的結果也證實了這一點,在包含社交、郵件、購物、導航等多個生活場景的中英互譯測試中,Hunyuan-MT-7B的翻譯質量與Gemini-2.5-Pro、DeepSeek-V3-0324等頂尖的大型模型處于同一水平,表明通過面向翻譯任務的系統性優化,中等規模的模型同樣可以達到很高的翻譯水準。


      歡迎在評論區留言~
      如需開白請加小編微信:dongfangmark



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      雷軍高調發文:“近50小時手工打磨”紫水晶車漆,網友炸了

      雷軍高調發文:“近50小時手工打磨”紫水晶車漆,網友炸了

      吃瓜局
      2025-12-15 16:01:07
      高市早苗宣布:自2026年起正式取消中國留學生打工收入免稅政策

      高市早苗宣布:自2026年起正式取消中國留學生打工收入免稅政策

      百態人間
      2025-12-15 16:12:20
      窮鬼套餐漲價登熱搜第一!網友:外賣大戰薅的羊毛要還回去了……

      窮鬼套餐漲價登熱搜第一!網友:外賣大戰薅的羊毛要還回去了……

      柴狗夫斯基
      2025-12-15 21:12:56
      朝鮮據稱拒絕俄羅斯再向俄烏戰場派遣士兵的請求,只因錢沒到位?

      朝鮮據稱拒絕俄羅斯再向俄烏戰場派遣士兵的請求,只因錢沒到位?

      之乎者也小魚兒
      2025-12-15 15:18:45
      沖突第八天!泰方拿下制空權后又封了泰國灣,洪森父子只無能狂怒

      沖突第八天!泰方拿下制空權后又封了泰國灣,洪森父子只無能狂怒

      科普100克克
      2025-12-15 12:45:29
      廣東江門發布情況通報

      廣東江門發布情況通報

      新京報政事兒
      2025-12-15 11:31:15
      全國“交警”集體改名!背后深意很多人沒看懂

      全國“交警”集體改名!背后深意很多人沒看懂

      李云飛Afey
      2025-12-15 20:15:17
      馬斯克大半夜在網上發文預測戰爭,這次可不是鬧著玩的!

      馬斯克大半夜在網上發文預測戰爭,這次可不是鬧著玩的!

      安安說
      2025-12-15 09:44:27
      女子全裸做SPA被安排男技師,拒絕后被嘲諷:孤陋寡聞!店家回應

      女子全裸做SPA被安排男技師,拒絕后被嘲諷:孤陋寡聞!店家回應

      瀟湘晨報
      2025-12-15 22:47:04
      笑了!柬泰沖突后,泰國駐華大使館微博下面,全是一樣的評論

      笑了!柬泰沖突后,泰國駐華大使館微博下面,全是一樣的評論

      消失的電波
      2025-12-15 14:10:23
      馬興全與他的深圳生意

      馬興全與他的深圳生意

      法經網
      2025-12-15 17:52:35
      我國首批L3級自動駕駛車型產品獲得準入許可

      我國首批L3級自動駕駛車型產品獲得準入許可

      財聯社
      2025-12-15 15:37:04
      新娘跳樓曝更多內幕:每月給500,工資卡被媽媽控制,彩禮給弟弟

      新娘跳樓曝更多內幕:每月給500,工資卡被媽媽控制,彩禮給弟弟

      奇思妙想草葉君
      2025-12-15 19:39:32
      網紅馮提莫直播間換裝被封,有網友質疑系直播“擦邊”,工作人員回應:封禁10分鐘后又再播了

      網紅馮提莫直播間換裝被封,有網友質疑系直播“擦邊”,工作人員回應:封禁10分鐘后又再播了

      揚子晚報
      2025-12-15 22:48:32
      亂了!江蘇天氣又亂了!最新預測:冬春連旱

      亂了!江蘇天氣又亂了!最新預測:冬春連旱

      江南晚報
      2025-12-16 03:33:39
      多市黨委主要領導調整

      多市黨委主要領導調整

      上觀新聞
      2025-12-15 14:57:22
      楊瀚森18+10+4背后暖心一幕!克林根認真指導 球迷期待激發潛力

      楊瀚森18+10+4背后暖心一幕!克林根認真指導 球迷期待激發潛力

      羅說NBA
      2025-12-16 05:59:50
      湖北鄖西通報3名員工聚餐飲酒中毒:食堂誤將工業酒精當白酒,1人死亡2人救治中

      湖北鄖西通報3名員工聚餐飲酒中毒:食堂誤將工業酒精當白酒,1人死亡2人救治中

      界面新聞
      2025-12-15 21:56:31
      日本韓國西班牙的地產怎么崩盤的? 日本跌了18年、韓國跌了10年才見底

      日本韓國西班牙的地產怎么崩盤的? 日本跌了18年、韓國跌了10年才見底

      爆角追蹤
      2025-12-15 19:02:28
      何晴告別式現場,前夫許亞軍疑似現身雙眼泛紅,大量群眾自發悼念

      何晴告別式現場,前夫許亞軍疑似現身雙眼泛紅,大量群眾自發悼念

      萌神木木
      2025-12-15 11:18:27
      2025-12-16 08:12:49
      直面派 incentive-icons
      直面派
      講述值得講述的真實故事
      239文章數 236關注度
      往期回顧 全部

      科技要聞

      L3車型可以上路了!重慶北京兩款車獲批

      頭條要聞

      天津警察學院兩干部論文查重率超70% 校方:官方沒認定

      頭條要聞

      天津警察學院兩干部論文查重率超70% 校方:官方沒認定

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      本地
      房產
      旅游
      公開課
      軍事航空

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      房產要聞

      6.66億摘地,海南封關大動作,千畝海澄新城震撼登場

      旅游要聞

      免簽、直航助力中俄旅游雙向升溫

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基稱烏方已妥協不加入北約 俄方發聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色色色999| 伊人精品成人久久综合97| 一区二区三区免费| 啪啪电影| 亚洲男女内射在线播放| 亚洲欧美日韩精品色xxx| 玩弄丰满少妇xxxxx性多毛| 亚洲欧美人成人让影院| 97香蕉碰碰人妻国产欧美| 当涂县| 黑人巨茎大战白人美女| 国产激情视频一区二区三区| 国内少妇人妻偷人精品视频| 亚洲av二区| aa中文化产品产二区在线| 久久精品99国产国产精| 在线欧美中文字幕农村电影| 蜜臀久久99精品久久久久久酒店| 海丰县| 性色欲情网站| 欧美性猛交ⅹxxx乱大交妖精 | 91在线观看| 屯昌县| 久久精品天天中文字幕人妻 | 香蕉社区| 精品人妻一区二区三区四区在线 | 国产亚洲精品久久777777| 午夜免费福利小电影| 亚洲日本91| 亚洲综合另类| 国产精品人妻在线观看| 性色av无码久久一区二区三区| 熟女国产精品| 黑森林福利视频导航| 法国白嫩大屁股xxxx| 99久久婷婷国产综合精品青草漫画| 亚洲av二区| 亚洲日韩日本中文在线| 国产精品扒开腿做爽爽爽视频| 欧美啄木乌成人系列| 色吊丝永久访问A|