<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      拿了30個冠軍的騰訊翻譯模型,實際表現(xiàn)又如何?

      0
      分享至


      騰訊在Hugging Face上發(fā)布了一個專門用來翻譯的模型,叫做Hunyuan-MT-7B。根據(jù)它的官方介紹,這個翻譯模型在WMT25競賽中,該模型在參與的31個語言類別中有30個獲得了第一名。并且在同等規(guī)模模型中實現(xiàn)了行業(yè)領(lǐng)先的性能。

      而Hunyuan-MT-7B的集成模型Hunyuan-MT-Chimera-7B,是業(yè)界首個開源翻譯集成模型,將翻譯質(zhì)量提升至新高度。所謂集成模型,是指一種機(jī)器學(xué)習(xí)方法。它的核心思想是,不依賴單個模型進(jìn)行預(yù)測或判斷,而是將多個模型的預(yù)測結(jié)果結(jié)合起來,從而獲得比任何一個單一模型都更好、更穩(wěn)定的最終結(jié)果。

      那么回到翻譯這個事上來,Chimera的邏輯就是讓MT-7B翻譯系統(tǒng)生成多個不同的翻譯候選版本,會分析這些候選版本,將它們各自的優(yōu)點整合起來。最后,生成一個質(zhì)量超越了任何一個單一候選版本的、更優(yōu)的最終譯文。

      但是由于官網(wǎng)目前只有MT-7B這一種版本,因此本文只對該版本進(jìn)行了測試。

      01

      這里我使用的都是很常見的英語臺詞,出自各種經(jīng)典讀物。


      出自《羅密歐與朱麗葉》,原文通常被翻譯為“姓名算得了什么?我們所稱的玫瑰,換個名字還是一樣芳香”


      出自《雙城記》,這個翻譯的非常精準(zhǔn)。


      出自《了不起的蓋茨比》,同樣也翻譯得非常精準(zhǔn)。

      接下來,提高難度,我開始用一些現(xiàn)代英語臺詞來測試模型的翻譯效果。


      這句話是《英雄聯(lián)盟》戲命師 燼的選定語音,我于殺戮之中盛放,亦如黎明中的花朵。


      這句話來自電影《蜘蛛俠》,通常我們翻譯成“能力越大,責(zé)任越大”。

      既然英語差不多沒問題,就來試試日語和韓語。


      這是《游戲王5D'S》紅蓮魔龍召喚臺詞,王者的鼓動,現(xiàn)在于此列成陣勢!看著這天地鳴動的力量吧!同調(diào)召喚,吾之魂,紅蓮魔龍!日語中的鼓動(こどう)并非全部都是心跳的意思,也可以指脈動、律動、震動等等。

      今ここに列をなす,要拆分出來理解。其中“今”代表此時此刻,“ここに”是在這里,指的是地點,“列をなす”是組成一列,而混元將其簡單譯作“此刻在此匯聚”并不是很合適。

      在韓語方面,Hunyuan-MT-7B也表現(xiàn)得不錯。


      這是K/DA歌曲《POP STAR》中阿卡麗(田小娟)的第一句歌詞,即便是英語和韓語混雜,MT-7B翻譯得依然非常準(zhǔn)確。


      如果帶著Emoji一起翻譯,那么混元MT可能會出現(xiàn)吞字的情況。比如圖中的許秀虧桑提圣經(jīng),混元沒有翻譯出??201。?? 是 ?? ???的縮寫,??是魔法,???是抵抗力,因此 ??201 的意思是魔法抗性是201。

      02

      從官方發(fā)布的技術(shù)報告來看,騰訊混元MT設(shè)計的目標(biāo)是提供高質(zhì)量的多語言互譯能力,現(xiàn)階段支持包括中文、英文、日文以及哈薩克語、維吾爾語、蒙古語、藏語等5種中國少數(shù)民族語言在內(nèi)的33種語言之間的雙向翻譯。

      混元MT的構(gòu)建采用了一套完整的、系統(tǒng)化的訓(xùn)練框架,這個框架將模型的訓(xùn)練過程分解為幾個前后銜接的階段,旨在逐步提升模型的翻譯能力。整個流程從未經(jīng)特定任務(wù)訓(xùn)練的基礎(chǔ)模型開始,通過一系列專門針對機(jī)器翻譯的優(yōu)化步驟,最終產(chǎn)出具備專業(yè)翻譯能力的模型。

      訓(xùn)練流程的第一個環(huán)節(jié)是通用預(yù)訓(xùn)練。這個階段的目標(biāo)是構(gòu)建一個具備廣泛知識和多語言基礎(chǔ)理解能力的基座模型,即Hunyuan-7B-Base。在訓(xùn)練過程中,模型學(xué)習(xí)了包含中文、英文以及其他多種語言在內(nèi)的數(shù)據(jù),其中非中英文的多語言數(shù)據(jù)量達(dá)到了1.3萬億個tokens。


      為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,研發(fā)團(tuán)隊建立了一套數(shù)據(jù)質(zhì)量評估體系。該體系從知識價值、真實性和寫作風(fēng)格三個維度對文本進(jìn)行打分,并根據(jù)數(shù)據(jù)來源的特性,對不同維度的權(quán)重進(jìn)行調(diào)整。比如翻譯專業(yè)知識的網(wǎng)站,就會優(yōu)先選擇知識價值得分高的數(shù)據(jù)。

      同時,為了保證內(nèi)容覆蓋面的均衡,還建立了學(xué)科、行業(yè)和內(nèi)容主題三個層面的標(biāo)簽系統(tǒng),用以調(diào)整不同領(lǐng)域數(shù)據(jù)的比例,并過濾掉低質(zhì)量或不相關(guān)的內(nèi)容。通過這一階段的訓(xùn)練,Hunyuan-7B-Base模型在通用知識、邏輯推理、數(shù)學(xué)、編程和多語言能力上奠定了基礎(chǔ)。

      接下來的第二個環(huán)節(jié)是面向機(jī)器翻譯的預(yù)訓(xùn)練。這個階段在通用基座模型的基礎(chǔ)上,加入了大量為翻譯任務(wù)篩選的單語和雙語語料,目的是使模型的能力向翻譯領(lǐng)域傾斜和深化。單語數(shù)據(jù)主要來源于mC4和OSCAR等公開數(shù)據(jù)集,并經(jīng)過了嚴(yán)格的清洗流程,包括語言識別、文檔級別去重以及使用語言模型過濾掉高困惑度的低質(zhì)量文本。

      雙語平行語料則來自O(shè)PUS和ParaCrawl等公開數(shù)據(jù)集,團(tuán)隊使用CometKiwi等無需參考譯文的質(zhì)量評估工具進(jìn)行篩選,以保證句對的質(zhì)量。為了確定不同來源數(shù)據(jù)的最佳混合比例,團(tuán)隊采用了一種名為RegMix的策略,通過在小規(guī)模模型上進(jìn)行實驗,找到能夠使訓(xùn)練損失最小化的數(shù)據(jù)配比,并將其應(yīng)用于正式的訓(xùn)練中。

      此外,為了防止模型在學(xué)習(xí)新知識時遺忘通用預(yù)訓(xùn)練階段學(xué)到的能力,訓(xùn)練數(shù)據(jù)中還包含了20%的原始預(yù)訓(xùn)練語料作為重放數(shù)據(jù)。

      完成兩個預(yù)訓(xùn)練階段后,模型進(jìn)入第三個環(huán)節(jié),即后訓(xùn)練階段。這一階段通過監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)等技術(shù),將模型的翻譯能力進(jìn)行精細(xì)化調(diào)優(yōu)和對齊。監(jiān)督微調(diào)分為兩個步驟。第一步使用約300萬句對的平行語料,旨在增強模型的基礎(chǔ)翻譯能力和遵循指令的能力。

      這些數(shù)據(jù)來自多個來源,包括Flores-200開發(fā)集、往年的WMT評測測試集、人工標(biāo)注的中文與少數(shù)民族語言互譯數(shù)據(jù)集,以及使用DeepSeek-V3-0324模型生成的合成數(shù)據(jù)。數(shù)據(jù)同樣經(jīng)過CometKiwi和GEMBA等質(zhì)量評估指標(biāo)的篩選。第二步則使用一個規(guī)模更小但質(zhì)量更高的數(shù)據(jù)集(約26.8萬句對)對模型進(jìn)行進(jìn)一步的精煉。這些數(shù)據(jù)經(jīng)過了更嚴(yán)格的篩選過程,并對多輪評估中得分一致性較差的樣本進(jìn)行了人工校驗。

      監(jiān)督微調(diào)之后是強化學(xué)習(xí)階段。機(jī)器翻譯任務(wù)的輸出具有語義多樣性,難以用簡單的規(guī)則進(jìn)行評估,這為強化學(xué)習(xí)的應(yīng)用帶來了挑戰(zhàn)。為解決此問題,混元MT采用了GRPO算法,并設(shè)計了一個復(fù)合獎勵函數(shù)。


      該獎勵函數(shù)包含三個部分:第一部分是質(zhì)量感知獎勵,使用與人類譯員判斷高度相關(guān)的XCOMET-XXL評分和基于DeepSeek-V3-0324模型的GEMBA框架評分,共同評估翻譯的整體質(zhì)量;第二部分是術(shù)語感知獎勵,它利用詞對齊工具提取源文和譯文中的術(shù)語等關(guān)鍵信息,通過計算二者的重合率來獎勵模型,促使模型更關(guān)注專業(yè)術(shù)語的準(zhǔn)確翻譯;第三部分是重復(fù)懲罰,用于檢測和懲罰模型在訓(xùn)練后期可能出現(xiàn)的重復(fù)輸出,以維持生成內(nèi)容的多樣性和訓(xùn)練的穩(wěn)定性。

      經(jīng)過這一系列后訓(xùn)練流程,最終產(chǎn)出的模型即為Hunyuan-MT-7B。

      03

      在Hunyuan-MT-7B的基礎(chǔ)上,系統(tǒng)還構(gòu)建了Hunyuan-MT-Chimera-7B模型。該模型采用了一種弱到強的強化學(xué)習(xí)方法。正如前文所述,其核心思想是在推理時,首先生成多個不同的翻譯候選結(jié)果,然后利用一個基于Hunyuan-MT-7B訓(xùn)練的融合模型,將這些候選結(jié)果的優(yōu)點整合起來,生成一個質(zhì)量超越任何單一候選結(jié)果的最終譯文。

      這個融合模型的訓(xùn)練同樣使用強化學(xué)習(xí),其獎勵函數(shù)由XCOMET-XXL評分、DeepSeek-V3-0324評分和重復(fù)懲罰項構(gòu)成。這種方法有效地利用了集成學(xué)習(xí)的優(yōu)勢,在不增加基礎(chǔ)模型參數(shù)量的情況下,進(jìn)一步提升了翻譯的上限。

      在性能表現(xiàn)上,混元MT系統(tǒng)在多個公開評測基準(zhǔn)上進(jìn)行了測試。結(jié)果顯示,無論是在WMT24pp還是FLORES-200等通用翻譯測試集上,7B參數(shù)規(guī)模的Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B,其翻譯質(zhì)量均超過了現(xiàn)有的同等規(guī)模開源模型,也優(yōu)于一些知名的商業(yè)翻譯系統(tǒng)和參數(shù)量遠(yuǎn)大于它的通用大模型。

      特別是在中文與少數(shù)民族語言互譯這個方向上,混元MT的表現(xiàn)顯著優(yōu)于所有其他對比模型,這體現(xiàn)了其在低資源語言翻譯方向上的針對性優(yōu)化取得了成效。人工評測的結(jié)果也證實了這一點,在包含社交、郵件、購物、導(dǎo)航等多個生活場景的中英互譯測試中,Hunyuan-MT-7B的翻譯質(zhì)量與Gemini-2.5-Pro、DeepSeek-V3-0324等頂尖的大型模型處于同一水平,表明通過面向翻譯任務(wù)的系統(tǒng)性優(yōu)化,中等規(guī)模的模型同樣可以達(dá)到很高的翻譯水準(zhǔn)。


      歡迎在評論區(qū)留言~
      如需開白請加小編微信:dongfangmark



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      美國:其實中國不可怕,要命的是中國淘汰4000年的東西他們還在用

      美國:其實中國不可怕,要命的是中國淘汰4000年的東西他們還在用

      凡人侃史
      2026-03-29 17:32:28
      10年后,被允許玩手機(jī)和被嚴(yán)格限制的孩子,差距驚人!

      10年后,被允許玩手機(jī)和被嚴(yán)格限制的孩子,差距驚人!

      諾媽家有男寶娃
      2026-03-30 12:21:11
      頒獎禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      頒獎禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      阿心文史
      2026-04-06 01:25:04
      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      念洲
      2026-04-04 21:52:19
      阿韋洛亞執(zhí)教皇馬18場5負(fù),與阿隆索本賽季帶隊輸球場次持平

      阿韋洛亞執(zhí)教皇馬18場5負(fù),與阿隆索本賽季帶隊輸球場次持平

      懂球帝
      2026-04-05 22:13:04
      農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      三農(nóng)雷哥
      2026-03-08 20:45:46
      江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

      江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

      燦爛夏天
      2025-02-10 20:20:13
      小米高管內(nèi)訓(xùn)內(nèi)容曝光:承認(rèn)大家電「質(zhì)量差」,一批供應(yīng)商要完蛋

      小米高管內(nèi)訓(xùn)內(nèi)容曝光:承認(rèn)大家電「質(zhì)量差」,一批供應(yīng)商要完蛋

      雷科技
      2026-04-03 14:41:09
      兒科醫(yī)生不光會看病更得會斷案!網(wǎng)友:嘴巴跟不上腦子的速度

      兒科醫(yī)生不光會看病更得會斷案!網(wǎng)友:嘴巴跟不上腦子的速度

      夜深愛雜談
      2026-03-09 21:19:47
      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內(nèi)娛女明星最真實的困境

      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內(nèi)娛女明星最真實的困境

      劇芒芒
      2026-04-05 17:59:45
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      第一批免簽去俄羅斯的中產(chǎn)傻眼了

      第一批免簽去俄羅斯的中產(chǎn)傻眼了

      風(fēng)向觀察
      2025-12-16 18:26:08
      孫穎莎從澳門帶走62萬大獎!還有3個好消息,王曼昱暴露兩大短板

      孫穎莎從澳門帶走62萬大獎!還有3個好消息,王曼昱暴露兩大短板

      曹說體育
      2026-04-05 22:12:33
      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責(zé)

      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責(zé)

      吃貨的分享
      2026-04-05 17:49:17
      美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

      美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

      瘋狂小菠蘿
      2026-04-01 20:13:49
      著名有機(jī)化學(xué)家、北京大學(xué)教授王劍波逝世,享年63歲

      著名有機(jī)化學(xué)家、北京大學(xué)教授王劍波逝世,享年63歲

      澎湃新聞
      2026-04-06 00:04:27
      微軟Office 365月費逼走3000萬用戶

      微軟Office 365月費逼走3000萬用戶

      固件更新中
      2026-04-05 20:35:36
      一個人養(yǎng)活一座城,這次我是真開眼了。

      一個人養(yǎng)活一座城,這次我是真開眼了。

      小光侃娛樂
      2026-02-11 05:15:05
      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      妍妍教育日記
      2026-03-20 21:33:36
      戳破臺學(xué)者荒誕“能源安全夢”

      戳破臺學(xué)者荒誕“能源安全夢”

      烽火瞭望者
      2026-04-05 11:33:37
      2026-04-06 02:43:00
      直面派 incentive-icons
      直面派
      講述值得講述的真實故事
      258文章數(shù) 237關(guān)注度
      往期回顧 全部

      科技要聞

      花200薅5千算力,Claude冷血斷供“龍蝦”

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      體育要聞

      CBA最老球員,身價7500萬美元

      娛樂要聞

      王燦兮否認(rèn)婆媳不和 曬與杜淳媽合影

      財經(jīng)要聞

      誰造出了優(yōu)思益這頭“怪物”?

      汽車要聞

      家用SUV沒駕駛樂趣?極氪8X第一個不同意

      態(tài)度原創(chuàng)

      家居
      藝術(shù)
      親子
      公開課
      軍事航空

      家居要聞

      溫馨多元 愛的具象化

      藝術(shù)要聞

      高210米,砸13億!廈門“礦泉水瓶大樓”即將建成!

      親子要聞

      小英自曝給女兒剪短發(fā)原因!怕頭發(fā)搶營養(yǎng)長不高,想剃光頭太真實

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美飛行員獲救細(xì)節(jié):美伊發(fā)生激烈交火 至少4死1傷

      無障礙瀏覽 進(jìn)入關(guān)懷版