開源社區(qū)再迎利器,騰訊混元圖像3.0圖生圖模型在權威評測中躋身全球第一梯隊,也是其中唯一的開源模型。
1月28日,騰訊混元團隊宣布開源混元圖像3.0圖生圖版本(HunyuanImage 3.0-Instruct)。同時,最新全球權威大模型競技場LMArena的圖像編輯(Image Edit)榜單中,混元圖像3.0圖生圖進入第一梯隊,成為全球最強的開源圖生圖模型。
此前1月26日,該模型在元寶上線,用戶只需要上傳1張或以上的圖片并輸入指令即可體驗。該能力受到眾多用戶喜愛,涌現(xiàn)了各種有意思的玩法。比如給貓貓拍大片、爆改世界名畫等“花式整活”。
![]()
![]()
(網(wǎng)友在元寶上用混元圖生圖能力花式整活,圖片來自網(wǎng)絡)
在最新的LMArena圖片編輯榜單上,騰訊混元圖像3.0圖生圖位列全球第七,也是前七名里面唯一開源的模型。LMArena官方X祝賀混元圖像3.0圖生圖“在圖片編輯榜單中與Nano-Banana和Seedream-4.5等表現(xiàn)相當”。這一成績來自于對模型圖像編輯能力的全面盲測評估,包括指令遵循、編輯精確度和輸出質(zhì)量等多個維度。
![]()
混元圖像3.0圖生圖支持多樣化的圖片編輯與多圖融合能力,包括增、刪、改、風格變換、老照片修復、人物與文字修改等圖片編輯功能,以及將多張照片中的元素提取出來合成新圖片的能力。對于普通用戶,該模型可用于制作表情包、虛擬人物合拍、社交分享等日常場景。對于專業(yè)用戶,它能夠助力電商海報設計、游戲角色定制、創(chuàng)意圖片制作等專業(yè)領域,顯著提升創(chuàng)作效率。
混元圖像3.0圖生圖版本基于混元圖像3.0的原生多模態(tài)架構構建,將文本理解、視覺理解與圖像生成深度融合于同一模型中。作為原生多模態(tài)模型,混元圖像3.0圖生圖核心創(chuàng)新在于其“先思考,后編輯”的工作流程。當接收到用戶輸入的圖片和提示詞后,模型會首先理解圖像內(nèi)容,然后基于提示詞進行推理,確定需要編輯的區(qū)域、詳細步驟以及需要保留的區(qū)域,最終形成更加詳細的編輯指令。
混元圖像3.0圖生圖基于80B總參數(shù)規(guī)模(激活參數(shù)約13B)的混合專家原生多模態(tài)架構,在處理圖像編輯任務時展現(xiàn)出強大的推理能力和精準的編輯效果。訓練過程中,混元團隊構建了千萬量級的圖生圖數(shù)據(jù),覆蓋80多個任務,并注入了思維鏈數(shù)據(jù),使模型能夠?qū)W會先分析用戶圖像和意圖,再輸出詳細編輯指令。后訓練階段采用自研MixGRPO算法,高效對齊用戶偏好,大幅提升了指令響應和非編輯區(qū)域保持一致的效果。
2025年9月,混元圖像3.0文生圖模型開源后,在LMArena全球文生圖盲測榜單中位列第一。本次混元圖像3.0圖生圖版本的開源是騰訊混元大模型系列的最新進展。開發(fā)者可通過Github和Hugging Face等主流開源平臺獲取混元圖像3.0圖生圖模型的權重及完整代碼。混元圖像3.0圖生圖版本的開源,將為全球開發(fā)者和研究者提供一個強大的基礎平臺,助力社區(qū)在其基礎上進行應用研發(fā)和二次開發(fā)。
騰訊混元團隊一直在持續(xù)迭代通用基礎能力和專業(yè)應用能力,研發(fā)了多種尺寸語言模型,以及圖像、視頻、3D等完整多模態(tài)生成模型和工具集插件。目前混元系列大模型已在騰訊內(nèi)部多個業(yè)務、外部多個行業(yè)和開源社區(qū)中被廣泛接入。截止目前,騰訊混元的圖像、視頻衍生模型數(shù)量總數(shù)達到3000個,視頻模型社區(qū)下載量超過500萬,混元3D系列模型社區(qū)下載量超過300萬,已成為全球最受歡迎的開源模型系列之一。
附混元圖像3.0圖生圖開源項目地址:
Github:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face:https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
Hugging Face(蒸餾版):https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.