網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

讓文字真正“寫進(jìn)”圖像：阿里巴巴發(fā)布Qwen-Image

2025-08-08 14:08:24　來源: 大數(shù)據(jù)文摘

北京舉報

分享至

大數(shù)據(jù)文摘出品

阿里巴巴發(fā)布了一款全新的多模態(tài)模型Qwen-Image，這款模型擁有200億參數(shù)，專為解決“圖中寫字”這一難題而生。

這并非簡單地在圖片上“加字”。

Qwen-Image生成的文字具備真實感與融合度，不再漂浮在畫面上，而是自然嵌入圖像內(nèi)部，仿佛原本就存在于其中。

在這張由Qwen-Image生成的古代集市畫面中，出現(xiàn)了多個阿里云門店的招牌，分別售賣云存儲、算力、AI平臺與模型服務(wù)。街景復(fù)雜，信息密集，所有的文字元素卻絲毫不突兀。

在這張PPT中，阿里巴巴將“通義千問視覺基礎(chǔ)模型”的名稱鑲嵌在一張科技藍(lán)背景的幻燈片上，四周點綴抽象植物圖案，文字清晰、工整、準(zhǔn)確地匹配PPT結(jié)構(gòu)。

02 結(jié)構(gòu)重構(gòu)，技術(shù)更迭

為了實現(xiàn)這種“寫得準(zhǔn)、嵌得牢”的文字圖像融合，Qwen團(tuán)隊對模型結(jié)構(gòu)進(jìn)行了徹底革新。

Qwen-Image的架構(gòu)由三大核心部分組成。

第一部分是Qwen2.5-VL，專注于圖文理解。它識別圖像中的物體與結(jié)構(gòu)，同時理解文字內(nèi)容與語義。

第二部分是一個變分自編碼器（Variational AutoEncoder），用于壓縮圖像信息，提升效率。

第三部分是多模態(tài)擴(kuò)散變換器（Multimodal Diffusion Transformer），負(fù)責(zé)生成最終輸出。

但最關(guān)鍵的創(chuàng)新來自于一種全新的位置編碼方法——MSRoPE。傳統(tǒng)方法將文字當(dāng)作一串字符，在圖像中以橫排或網(wǎng)格方式簡單排布。

MSRoPE從圖像中央出發(fā)，沿對角線方向布置文字位置編碼。這種布局更貼合圖像的自然結(jié)構(gòu)，讓模型能夠在不同分辨率下依然精準(zhǔn)定位每個文字元素。

結(jié)果就是：不論是幻燈片、街頭廣告、海報設(shè)計，甚至是漫畫對話框中的對話，文字都不會跑偏、錯位或重疊。

這項技術(shù)不僅提升了對中文復(fù)雜字符的渲染能力，還讓模型在中英文切換中保持流暢。

03 不靠AI圖訓(xùn)練，照樣超越對手

生成文字圖像的最大風(fēng)險，在于訓(xùn)練數(shù)據(jù)的質(zhì)量。整個訓(xùn)練集共分為四類：55%為自然圖片、27%為設(shè)計類內(nèi)容（如海報和PPT）、13%為人物照片，剩下5%為受控合成數(shù)據(jù)。

所有圖像都必須通過多級篩選流程，亮度、飽和度、色彩熵、清晰度四項指標(biāo)全面把關(guān)，極端異常的圖像會被標(biāo)記并復(fù)查。

在此基礎(chǔ)上，Qwen-Image采用三種訓(xùn)練策略：純渲染策略，即在簡單背景上顯示清晰文字；組合渲染策略，將文字置于真實場景中；復(fù)雜渲染策略，則處理多欄排版、手寫風(fēng)格、演示幻燈片等高難度格式。

這三種策略協(xié)同發(fā)力，覆蓋從基礎(chǔ)到高級的各種文本圖像組合，構(gòu)建出多層次、強(qiáng)魯棒性的訓(xùn)練數(shù)據(jù)集。。

在一項包含一萬多次匿名對比評估的測試中，Qwen-Image的表現(xiàn)優(yōu)于GPT-Image-1與Flux.1 Context等商業(yè)模型。

整體排名第三，僅次于少數(shù)研究性模型。在圖像生成、圖像編輯、中英文文字渲染這三項指標(biāo)上，Qwen-Image幾乎全面領(lǐng)先。

圖注：在與 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面測試中，Qwen-Image 在圖像生成與編輯方面表現(xiàn)領(lǐng)先。該模型在中文文本渲染方面也位居第一，并在英文表現(xiàn)上與競爭對手持平。

在最關(guān)鍵的中文渲染測試中，它一騎絕塵，穩(wěn)居第一。在業(yè)界認(rèn)可的GenEval測試中，Qwen-Image在對象生成項目上得分高達(dá)0.91，遠(yuǎn)高于其他同類模型。

這說明，它不僅擅長生成“看起來好”的圖像，更能處理結(jié)構(gòu)復(fù)雜、任務(wù)精細(xì)的圖文嵌合內(nèi)容。

阿里巴巴也在同步推進(jìn)一個名為Qwen VLo的模型，用于文字能力更強(qiáng)的圖文任務(wù)。

Qwen-Image現(xiàn)已在GitHub與Hugging Face平臺開放，可免費試用，亦提供在線演示。

Github：

https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file

demo：

https://huggingface.co/spaces/Qwen/Qwen-Image

paper：

https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動態(tài)與技術(shù)趨勢！

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

一場春節(jié)突襲，阿里改寫了AI戰(zhàn)局

虎嗅APP 2026-02-17 23:19:16
6 跟貼 6
春晚殺瘋后，誰能再造大模型時代的超級國民應(yīng)用？

鈦媒體APP 2026-02-19 10:57:08
6 跟貼 6

百度重構(gòu)AI時代的生存法則

華爾街見聞官方 2026-02-18 13:25:40
1 跟貼 1

45億紅包打響AI入口大戰(zhàn)，百度給出另一種回應(yīng)

量子位 2026-02-19 17:54:22
0 跟貼 0
AI也邪修！Qwen3改Bug測試直接搜GitHub，太擬人了

量子位 2025-09-04 14:49:30
30 跟貼 30

谷歌Gemini上線AI音樂創(chuàng)作，一夜革了Suno的命！

新智元 2026-02-19 12:39:23
2 跟貼 2

告別「面癱」配音，InfiniteTalk開啟從口型同步到全身表達(dá)新范式

機(jī)器之心Pro 2025-08-28 14:12:20
0 跟貼 0
吃瓜、開會、追熱點，我靠AI穩(wěn)坐信息高地

36氪 2025-11-27 18:27:11
0 跟貼 0

國產(chǎn)大模型“春節(jié)檔”混戰(zhàn)，一文看懂豆包是怎么打這仗的

鈦媒體APP 2026-02-18 20:49:39
0 跟貼 0
Jeff Dean萬字訪談：我們正在殺死割裂AI應(yīng)用，2026是大一統(tǒng)元年

DeepTech深科技 2026-02-18 20:02:25
4 跟貼 4
懂人性更懂執(zhí)行，螞蟻這個萬億開源模型把情商和戰(zhàn)斗力都給拉滿了

量子位 2026-02-19 12:45:37
2 跟貼 2
Claude最強(qiáng)Sonnet模型4.6來了，百萬token上下文

機(jī)器之心Pro 2026-02-18 21:11:29
2 跟貼 2
印度一大學(xué)拿中國機(jī)器狗冒充自研

環(huán)球時報 2026-02-18 16:09:05
2162 跟貼 2162
春晚之后，AI和機(jī)器人為啥都去了一個地方？

量子位 2026-02-19 12:40:49
5 跟貼 5
行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡智機(jī)器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
靈巧手作為獨立執(zhí)行平臺，實現(xiàn)工業(yè)與家庭場景應(yīng)用

量子位 2025-12-11 03:38:13
0 跟貼 0
阿里發(fā)布新一代大模型Qwen3.5，推理吞吐量提升至19倍

每日經(jīng)濟(jì)新聞 2026-02-17 01:34:40
2 跟貼 2
蔡崇信回憶加入阿里，放棄百萬年薪拿500工資

快科技 2026-02-15 08:02:36
0 跟貼 0
Being-VL的視覺BPE路線：把「看」和「說」真正統(tǒng)一起來

機(jī)器之心Pro 2025-10-09 10:59:57
0 跟貼 0
演員拍戲散步場景，原來前面這么多人，沒點信念感真不行

萌趣瞬間 2026-02-16 08:33:06
67 跟貼 67
阿麗瑪揚言要把公公阿里的腿也打斷(1)

休高逸 2026-02-19 05:21:43
0 跟貼 0
Snapchat提出Canvas-to-Image：一張畫布集成 ID、姿態(tài)與布局

機(jī)器之心Pro 2025-12-09 14:14:17
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9
面向具身場景的生成式渲染器TC-Light來了，代碼已開源

機(jī)器之心Pro 2025-09-25 18:44:02
0 跟貼 0
這個揮金如土的闊太，才是馬云真正的靠山

雷科技 2025-11-12 16:35:27
0 跟貼 0
28歲財務(wù)自由，32歲淘寶總裁，蔣凡的人生有多爽文？

飯統(tǒng)戴老板 2025-09-09 15:05:13
0 跟貼 0
馬云的奇幻漂流：斷臂2023（中）

飯統(tǒng)戴老板 2025-10-17 10:36:14
0 跟貼 0
白菊始終不知道：邵云飛的沉默，是為她擋下全世界

梗社 2026-02-18 21:31:40
7 跟貼 7
PosterGen：告別學(xué)術(shù)海報制作煩惱，從PDF生成可編輯PPTX學(xué)術(shù)海報

機(jī)器之心Pro 2025-09-04 18:05:43
0 跟貼 0
近日，青海。車主自駕青海遇男子招手搭車，男子去快遞站給孩子們?nèi)∵^冬物資，車主好心送男子去學(xué)校，車主：

中安在線 2026-02-18 22:00:26
122 跟貼 122
中國游客稱因道路積雪被困俄羅斯“極光村” 超40小時，俄媒：滯留游客都已離開

上游新聞 2026-02-17 20:22:05
25006 跟貼 25006
內(nèi)蒙古草原名場面！狼偷不著羊，就跟藏獒貼貼，網(wǎng)友：前狼假寐，蓋以誘敵

BRTV新聞 2026-02-19 07:15:56
148 跟貼 148
22排行榜丨NO.3 吃飯是個技術(shù)活，12個吃飯習(xí)慣要改

中國臨床營養(yǎng)網(wǎng) 2026-02-19 08:43:45
1 跟貼 1
西藏阿里的年味兒是什么樣？迎接不一樣的馬年新年

中國日報網(wǎng) 2026-02-18 17:48:05
0 跟貼 0
遭PS玩家圍攻!戰(zhàn)神創(chuàng)始人被指怨恨索尼回?fù)粲矂倗娮?/a>

游民星空 2026-02-19 17:06:23
1 跟貼 1
三維量子雙縫干涉實驗（網(wǎng)格版）

帆雨動畫 2026-02-19 15:22:04
2 跟貼 2
【美股盤前】黃仁勛：為GTC 2026準(zhǔn)備了多款前所未見的新芯片；英偉達(dá)清倉Arm全部股份；Meta重啟智能手表計劃，計劃2026年推出；OpenAI最

每日經(jīng)濟(jì)新聞 2026-02-19 17:52:31
0 跟貼 0
一鍵生成PPT和科研繪圖，北大開源Paper2Any，全流程可編輯

機(jī)器之心Pro 2026-01-04 17:32:26
3 跟貼 3
拉開帳篷的一瞬間，連空氣都凝固了，意想不到的場景！

甜心萌物醬i 2026-02-18 14:55:00
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

讓文字真正“寫進(jìn)”圖像：阿里巴巴發(fā)布Qwen-Image

怒燒45億，騰訊字節(jié)阿里決戰(zhàn)春節(jié)

媒體：高市2.0 日本政局發(fā)生了意料之中的變動

媒體：高市2.0 日本政局發(fā)生了意料之中的變動

中國隊第二金！徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

明星過年百態(tài)！黃曉明等現(xiàn)身三亞

面條火腿香菇醬！上市公司這些年請你吃

量產(chǎn)甲醇插混 吉利銀河星耀6甲醇插混版申報圖

態(tài)度原創(chuàng)

《巫師》劇情設(shè)計師：初代結(jié)局受到了公司高層干預(yù)

春花齊放2026：《駿馬奔騰迎新歲》

“分段式過年”火爆，汕頭領(lǐng)跑全國“特色年味游”熱門目的地

金正恩出席火箭炮贈送儀式 強(qiáng)調(diào)確保朝鮮安全環(huán)境

中國隊第二金！徐夢桃贏女子空中技巧兩連冠邵琪銅牌

量產(chǎn)甲醇插混吉利銀河星耀6甲醇插混版申報圖

金正恩出席火箭炮贈送儀式強(qiáng)調(diào)確保朝鮮安全環(huán)境