大數(shù)據(jù)文摘出品
阿里巴巴發(fā)布了一款全新的多模態(tài)模型Qwen-Image,這款模型擁有200億參數(shù),專為解決“圖中寫字”這一難題而生。
這并非簡單地在圖片上“加字”。
Qwen-Image生成的文字具備真實感與融合度,不再漂浮在畫面上,而是自然嵌入圖像內(nèi)部,仿佛原本就存在于其中。
![]()
在這張由Qwen-Image生成的古代集市畫面中,出現(xiàn)了多個阿里云門店的招牌,分別售賣云存儲、算力、AI平臺與模型服務(wù)。街景復(fù)雜,信息密集,所有的文字元素卻絲毫不突兀。
在這張PPT中,阿里巴巴將“通義千問視覺基礎(chǔ)模型”的名稱鑲嵌在一張科技藍(lán)背景的幻燈片上,四周點綴抽象植物圖案,文字清晰、工整、準(zhǔn)確地匹配PPT結(jié)構(gòu)。
02 結(jié)構(gòu)重構(gòu),技術(shù)更迭
為了實現(xiàn)這種“寫得準(zhǔn)、嵌得牢”的文字圖像融合,Qwen團(tuán)隊對模型結(jié)構(gòu)進(jìn)行了徹底革新。
Qwen-Image的架構(gòu)由三大核心部分組成。
第一部分是Qwen2.5-VL,專注于圖文理解。它識別圖像中的物體與結(jié)構(gòu),同時理解文字內(nèi)容與語義。
第二部分是一個變分自編碼器(Variational AutoEncoder),用于壓縮圖像信息,提升效率。
第三部分是多模態(tài)擴(kuò)散變換器(Multimodal Diffusion Transformer),負(fù)責(zé)生成最終輸出。
但最關(guān)鍵的創(chuàng)新來自于一種全新的位置編碼方法——MSRoPE。傳統(tǒng)方法將文字當(dāng)作一串字符,在圖像中以橫排或網(wǎng)格方式簡單排布。
![]()
MSRoPE從圖像中央出發(fā),沿對角線方向布置文字位置編碼。這種布局更貼合圖像的自然結(jié)構(gòu),讓模型能夠在不同分辨率下依然精準(zhǔn)定位每個文字元素。
結(jié)果就是:不論是幻燈片、街頭廣告、海報設(shè)計,甚至是漫畫對話框中的對話,文字都不會跑偏、錯位或重疊。
這項技術(shù)不僅提升了對中文復(fù)雜字符的渲染能力,還讓模型在中英文切換中保持流暢。
03 不靠AI圖訓(xùn)練,照樣超越對手
![]()
生成文字圖像的最大風(fēng)險,在于訓(xùn)練數(shù)據(jù)的質(zhì)量。整個訓(xùn)練集共分為四類:55%為自然圖片、27%為設(shè)計類內(nèi)容(如海報和PPT)、13%為人物照片,剩下5%為受控合成數(shù)據(jù)。
所有圖像都必須通過多級篩選流程,亮度、飽和度、色彩熵、清晰度四項指標(biāo)全面把關(guān),極端異常的圖像會被標(biāo)記并復(fù)查。
在此基礎(chǔ)上,Qwen-Image采用三種訓(xùn)練策略:純渲染策略,即在簡單背景上顯示清晰文字;組合渲染策略,將文字置于真實場景中;復(fù)雜渲染策略,則處理多欄排版、手寫風(fēng)格、演示幻燈片等高難度格式。
這三種策略協(xié)同發(fā)力,覆蓋從基礎(chǔ)到高級的各種文本圖像組合,構(gòu)建出多層次、強(qiáng)魯棒性的訓(xùn)練數(shù)據(jù)集。。
在一項包含一萬多次匿名對比評估的測試中,Qwen-Image的表現(xiàn)優(yōu)于GPT-Image-1與Flux.1 Context等商業(yè)模型。
整體排名第三,僅次于少數(shù)研究性模型。在圖像生成、圖像編輯、中英文文字渲染這三項指標(biāo)上,Qwen-Image幾乎全面領(lǐng)先。
![]()
圖注:在與 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面測試中,Qwen-Image 在圖像生成與編輯方面表現(xiàn)領(lǐng)先。該模型在中文文本渲染方面也位居第一,并在英文表現(xiàn)上與競爭對手持平。
在最關(guān)鍵的中文渲染測試中,它一騎絕塵,穩(wěn)居第一。在業(yè)界認(rèn)可的GenEval測試中,Qwen-Image在對象生成項目上得分高達(dá)0.91,遠(yuǎn)高于其他同類模型。
這說明,它不僅擅長生成“看起來好”的圖像,更能處理結(jié)構(gòu)復(fù)雜、任務(wù)精細(xì)的圖文嵌合內(nèi)容。
阿里巴巴也在同步推進(jìn)一個名為Qwen VLo的模型,用于文字能力更強(qiáng)的圖文任務(wù)。
Qwen-Image現(xiàn)已在GitHub與Hugging Face平臺開放,可免費試用,亦提供在線演示。
Github:
https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file
demo:
https://huggingface.co/spaces/Qwen/Qwen-Image
paper:
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術(shù)趨勢!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.