大數據文摘出品
阿里巴巴發布了一款全新的多模態模型Qwen-Image,這款模型擁有200億參數,專為解決“圖中寫字”這一難題而生。
這并非簡單地在圖片上“加字”。
Qwen-Image生成的文字具備真實感與融合度,不再漂浮在畫面上,而是自然嵌入圖像內部,仿佛原本就存在于其中。
![]()
在這張由Qwen-Image生成的古代集市畫面中,出現了多個阿里云門店的招牌,分別售賣云存儲、算力、AI平臺與模型服務。街景復雜,信息密集,所有的文字元素卻絲毫不突兀。
在這張PPT中,阿里巴巴將“通義千問視覺基礎模型”的名稱鑲嵌在一張科技藍背景的幻燈片上,四周點綴抽象植物圖案,文字清晰、工整、準確地匹配PPT結構。
02 結構重構,技術更迭
為了實現這種“寫得準、嵌得牢”的文字圖像融合,Qwen團隊對模型結構進行了徹底革新。
Qwen-Image的架構由三大核心部分組成。
第一部分是Qwen2.5-VL,專注于圖文理解。它識別圖像中的物體與結構,同時理解文字內容與語義。
第二部分是一個變分自編碼器(Variational AutoEncoder),用于壓縮圖像信息,提升效率。
第三部分是多模態擴散變換器(Multimodal Diffusion Transformer),負責生成最終輸出。
但最關鍵的創新來自于一種全新的位置編碼方法——MSRoPE。傳統方法將文字當作一串字符,在圖像中以橫排或網格方式簡單排布。
![]()
MSRoPE從圖像中央出發,沿對角線方向布置文字位置編碼。這種布局更貼合圖像的自然結構,讓模型能夠在不同分辨率下依然精準定位每個文字元素。
結果就是:不論是幻燈片、街頭廣告、海報設計,甚至是漫畫對話框中的對話,文字都不會跑偏、錯位或重疊。
這項技術不僅提升了對中文復雜字符的渲染能力,還讓模型在中英文切換中保持流暢。
03 不靠AI圖訓練,照樣超越對手
![]()
生成文字圖像的最大風險,在于訓練數據的質量。整個訓練集共分為四類:55%為自然圖片、27%為設計類內容(如海報和PPT)、13%為人物照片,剩下5%為受控合成數據。
所有圖像都必須通過多級篩選流程,亮度、飽和度、色彩熵、清晰度四項指標全面把關,極端異常的圖像會被標記并復查。
在此基礎上,Qwen-Image采用三種訓練策略:純渲染策略,即在簡單背景上顯示清晰文字;組合渲染策略,將文字置于真實場景中;復雜渲染策略,則處理多欄排版、手寫風格、演示幻燈片等高難度格式。
這三種策略協同發力,覆蓋從基礎到高級的各種文本圖像組合,構建出多層次、強魯棒性的訓練數據集。。
在一項包含一萬多次匿名對比評估的測試中,Qwen-Image的表現優于GPT-Image-1與Flux.1 Context等商業模型。
整體排名第三,僅次于少數研究性模型。在圖像生成、圖像編輯、中英文文字渲染這三項指標上,Qwen-Image幾乎全面領先。
![]()
圖注:在與 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面測試中,Qwen-Image 在圖像生成與編輯方面表現領先。該模型在中文文本渲染方面也位居第一,并在英文表現上與競爭對手持平。
在最關鍵的中文渲染測試中,它一騎絕塵,穩居第一。在業界認可的GenEval測試中,Qwen-Image在對象生成項目上得分高達0.91,遠高于其他同類模型。
這說明,它不僅擅長生成“看起來好”的圖像,更能處理結構復雜、任務精細的圖文嵌合內容。
阿里巴巴也在同步推進一個名為Qwen VLo的模型,用于文字能力更強的圖文任務。
Qwen-Image現已在GitHub與Hugging Face平臺開放,可免費試用,亦提供在線演示。
Github:
https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file
demo:
https://huggingface.co/spaces/Qwen/Qwen-Image
paper:
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.