大數據文摘出品
近日,騰訊研究團隊打造了一款新型圖像生成模型X-Omni。技術上,采用了強化學習重構混合模型架構;性能上,直接對標OpenAI的GPT-4o。
![]()
地址:https://arxiv.org/pdf/2507.22058
這款模型不僅在中英文文字渲染方面刷新了已有基準,還在多個圖像生成任務中擊敗了商用大模型。
它的核心技術來自不同開源社區,甚至包括直接競爭者,展現出一種“拼圖式”AI構建思路。
混合架構的斷層,被強化學習縫合
![]()
圖像生成AI領域,始終存在一個核心難題:如何在語義理解和圖像還原之間找到平衡。
目前主流做法,是采用“混合模型”架構:一部分使用自回歸模型來生成語義token,另一部分用擴散模型來還原圖像。
這種架構的優勢是互補,但也帶來了新的問題:語義token與擴散解碼器之間“語言不通”。
兩部分常常各說各話,生成結果的質量不穩定,尤其在遇到復雜文本或高精度場景時,錯誤容易累積。
騰訊的X-Omni摒棄了傳統混合架構“各自訓練、強行拼接”的模式,引入統一的強化學習流程,通過RL對齊兩部分、提升協同。
![]()
首先,由自回歸模型生成語義token;接著,擴散模型FLUX.1-dev負責根據token生成圖像;再由一個綜合評價系統給出反饋,指導自回歸模型更精準地輸出token。
這個評價系統由三部分組成:人工美學偏好評分、高分辨率圖像質量評分模型,以及視覺-語言模型Qwen2.5-VL-32B。
同時,為驗證圖像中文字是否準確,系統還引入GOT-OCR-2.0與PaddleOCR做比對。
在約200步RL訓練后,模型指標已超過SFT+Best-of-N的最佳結果。
結果顯示,在相同訓練輪數下,X-Omni的輸出圖像質量超過常規訓練方式所得最佳結果。
文本是關鍵,中文才是戰場
![]()
在與GPT-4o的對比中,X-Omni在最難的環節,圖像中的文字渲染場景中,獲得了優勢。
圖像文字生成一直是大模型的痛點,越長的文本越容易錯漏、變形,甚至無法識別。
為此,騰訊團隊專門構建了名為“LongText-Bench”的測試基準,用以測評在長段文字下的圖像渲染穩定性。
結果顯示,X-Omni在英文文本準確率上達到了0.901,超越所有同類模型。
而在中文文本渲染方面,在OneIG中文任務上,X-Omni超過了GPT-4o,與Seedream 3.0表現相當;在中文長文本(LongText-Bench)評測中,X-Omni取得第一。
X-Omni采用的是一種叫SigLIP-VQ的tokenizer,不再以像素為單位構建圖像,而是將圖像編碼為16,384個語義token。
這些token更貼近“概念”,而非圖像細節,使模型更擅長理解語言并在圖像中復現。
整個系統的語言能力依托于Qwen2.5-7B,這是由阿里巴巴開源的一款語言模型。
騰訊團隊在其基礎上增加了圖像理解與生成模塊,使X-Omni具備圖文雙向通感能力。
這意味著,無論是菜單、海報、UI界面,還是演講稿、說明書,都可以被自然地轉化為高質量圖像。
對中國本土市場而言,這種能力至關重要。開源對壘商用,生態之戰才剛開始
雖然X-Omni在多個關鍵維度上表現優異,但它并未宣稱“碾壓”GPT-4o。評測顯示,改進幅度有限,非革命性躍遷。GPT-4o依然在綜合性能上具備強大競爭力。
X-Omni的最大意義在于,它將來自多個組織、多個生態的開源技術融為一體,拼出了一個“模塊化大模型”的可能形態。
它的擴散模型來自德國初創公司Black Forest Labs。語言模型來自阿里巴巴。評價系統與OCR系統則綜合多個開源庫構建而成。
這一切被整合進一個由騰訊發布的開源代碼與模型,并已在Hugging Face與GitHub上全面開放。
這和OpenAI閉源的GPT-4o構成了鮮明對照。
后者雖然強大,但本質上仍是“黑箱”。當GPT-4o在ChatGPT上線圖像生成功能,引發業界驚嘆之時,
X-Omni則代表著另一條路徑:開放、拼接、重構、調優。
這種路線或許無法一步登天,卻為AI產業生態提供了另一種可持續發展模式。“后發者”可以通過策略、工程能力和生態協作縮小差距。
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.