原本,小雷以為臨近過年,這AI圈子能稍微消停一點。
特別是去年這一整年,整個行業(yè)根本沒有停歇,各大廠商像約好了一樣扎堆發(fā)新品。特別是圖像生成,閉源那邊,Banana Pro憑著驚人的光影質(zhì)感,幾乎成了設(shè)計師電腦里的釘子戶;開源這邊,以Z-image為首的模型也是滿天飛,只要你顯卡頂?shù)米。镜嘏軋D的效果早就今非昔比。
那時候小雷還在編輯部跟同事念叨,說這倆大模型的風(fēng)潮,最起碼能領(lǐng)跑個半年吧。
結(jié)果沒想到,打臉來得比翻書還快。
就在昨天,阿里的通義千問團隊不聲不響地搞了個大動作——新一代圖像生成基礎(chǔ)模型Qwen-Image-2.0正式上線。
![]()
(圖源:阿里)
這名字聽著挺樸實,沒什么天花亂墜的后綴,但真正讓圈內(nèi)人炸鍋的是它的核心賣點:它不僅僅是畫圖,還能聽得懂人話,甚至能寫中文字。
根據(jù)官方介紹,這個模型不但支持原生2K分辨率(2048x2048像素),還能處理長達(dá)1000個token的復(fù)雜指令,并采用了更輕量的模型架構(gòu),模型尺寸遠(yuǎn)小于Qwen-Image 1.0的20B,帶來更快的推理速度。
什么?你說這些參數(shù)聽著云里霧里的,根本理解不了是啥意思?
沒事,我這里也準(zhǔn)備了谷歌Nano Banana Pro,第一時間給大家進(jìn)行橫向體驗比較。話不說多,直接開整!
中文輸出不錯,審美有待提升
在開始跑圖之前,咱們得先聊聊Qwen-Image-2.0的一個核心邏輯。
以往我們玩AI畫圖,就像是在抽卡。因為輸入Token長度的限制,你很難細(xì)致定義自己想要的圖片,只能把自己的需求簡化成關(guān)鍵詞的集合,然后讓AI給你吐出幾張圖,好不好看全看運氣。
從我的經(jīng)驗來看,提示詞如果寫得太長,模型往往會顧頭不顧尾,要么丟了背景,要么搞錯了物體數(shù)量。
但Qwen-Image-2.0不同,它主打的核心賣點就是長指令遵循,渲染能力強。
為了驗證這一點,小雷準(zhǔn)備了三個維度的地獄級測試:超長邏輯指令、圖文混合排版,以及中文語義的精準(zhǔn)還原。
要知道,Qwen-Image-2.0輸入的提示詞長度變成了1K token,你完全可以把提示詞寫得非常詳細(xì)和具體,同時還可以選擇是否需要優(yōu)化prompt。
這點對于新手AI玩家,是真的很有吸引力。
在超長邏輯指令上,我選擇基于最近的個人經(jīng)歷,直接給兩個大模型輸入一個長達(dá)700字,且包含復(fù)雜指令的提示詞:
![]()
(圖源:雷科技)
說實話,敲完這段字,小雷自己都覺得有點過分。
要知道,這種存在四格結(jié)構(gòu)、明確邏輯、人物關(guān)系與統(tǒng)一畫風(fēng)的制圖要求,對于市面上大部分圖像生成模型來說幾乎都是不可能做到的。
等待了十幾秒后,兩張圖出來了。
該說不說,Banana Pro生成的圖,那股水墨連環(huán)畫的意境確實到位,黑白對比強烈,看著很有藝術(shù)感。
但仔細(xì)一看,我直接笑噴了:它真的把豹子頭林沖畫成了一個長著豹子頭的怪物!在它的邏輯里,豹子頭就是“Leopard Head”,完全搞不懂這是個外號。
![]()
(圖源:雷科技自制,Nano Banana Pro)
再看Qwen-Image-2.0這邊,個人覺得畫風(fēng)更偏寫實,畫面里的林沖是個滿臉滄桑的硬漢,并沒有長出動物腦袋,它很清楚“豹子頭”指的是人的特征而非物種,從跪地、破窗到持槍殺敵,分鏡敘事非常清晰。
這就是國產(chǎn)模型在中文語境下的優(yōu)勢——它懂的是典故,而對手只能望文生義。
![]()
(圖源:雷科技自制,Qwen-Image 2.0)
什么?你說一張圖說明不了啥?
那我們再試試中文語義還原,我準(zhǔn)備了一份接近800字的詳細(xì)提示詞,看看Qwen-Image 2.0能否交付合乎預(yù)期的生成結(jié)果:
![]()
(圖源:雷科技)
結(jié)果呢,Qwen-Image 2.0的生成結(jié)果如下。可以看到模型還原了我們對圖片布局、字體顏色的要求,內(nèi)容也得到準(zhǔn)確呈現(xiàn),基本沒有遺漏。
![]()
(圖源:雷科技自制,Qwen-Image 2.0)
但也有不足之處,好幾個框里居然把分號算進(jìn)去了,一些過小的字體標(biāo)識根本看不清。
而Nano Banana Pro的生成結(jié)果明顯有更多的圖像和圖標(biāo),設(shè)計風(fēng)格和我們要求的一樣,大部分文字也都成功渲染。
美中不足的是,可以看到部分文字出現(xiàn)了模糊的問題,難以辨別。
![]()
(圖源:雷科技自制,Nano Banana Pro)
總的來說,兩者都完成得不錯,Qwen-Image 2.0相對簡潔一些,而Nano Banana Pro的成品確實很有設(shè)計感。
最后,我們測試一下圖文組合的效果,這里就以曹操的《短歌行》作為目標(biāo):
![]()
(圖源:雷科技)
在沒有提示《短歌行》全文的前提下,兩者均無法完成全文的生成,Qwen-Image 2.0會把內(nèi)容寫到一半中斷,而Nano Banana Pro感覺整了個奇怪的復(fù)讀。
![]()
![]()
(圖源:雷科技自制,上為Nano Banana Pro,下為Qwen-Image 2.0)
拋開這點,兩款大模型的生成效果居然都挺不錯的。
如果給出全文的話,生成結(jié)果會不會有所不同呢?為了解答大家的疑惑,我也是重新嘗試了一遍。
![]()
![]()
(圖源:雷科技自制,上為Nano Banana Pro,下為Qwen-Image 2.0)
乍看之下,整體完成度還是很高的。我要求的畫面元素,需要完整嵌入的長文本,和對書法字體的要求都達(dá)到了還原。
但是仔細(xì)看的話,不難發(fā)現(xiàn)Qwen-Image 2.0在長文本的排版、生成和美術(shù)設(shè)計上,都還有可以進(jìn)步的空間。
穩(wěn)定性強,修圖更是一絕
如果說前面的文生圖只是常規(guī)操作,那么接下來的圖像編輯,才是Qwen-Image-2.0真正讓小雷感到驚喜的地方。
具體講呢,我們可以通過上傳一張或多張圖片,通過提示詞指令讓AI進(jìn)行二創(chuàng)、修改等編輯操作。
這里就不說廢話了,先試試之前很火的“三視圖”玩法:
![]()
(圖源:雷科技)
原圖是TikTok上的日本小網(wǎng)紅:
![]()
(圖源:嗶哩嗶哩)
在此基礎(chǔ)上,Qwen-Image 2.0生成后的三視圖就很正常,完全可以認(rèn)為是符合角色邏輯的成品。
![]()
(圖源:雷科技自制,Qwen-Image 2.0)
而Nano Banana Pro的成品就很抽象,是將角色進(jìn)行了畫風(fēng)轉(zhuǎn)繪后再生成的三視圖,圖片還疊加在原圖上方,就很莫名其妙。
![]()
(圖源:雷科技自制,Nano Banana Pro)
我們接著嘗試,這次的目標(biāo)是給原圖換一套Coser服裝和拍攝場地,讓圖1中的女孩穿著圖2的Cos服裝,站在圖3的場景里面:
![]()
(圖源:雷科技)
別說嗷,Qwen-Image 2的成品真沒有啥違和感,衣服和女孩的融合得也非常好,就是頭上有些沒摳干凈的白邊。
![]()
(圖源:雷科技自制,Qwen-Image 2.0)
至于Nano Banana Pro...妹子你是誰啊?
![]()
(圖源:雷科技自制,Nano Banana Pro)
要我說,你這根本不是修圖,而是圖像生成吧!
我再試一下AI合影,輸入兩張獨立人物照片,讓模型把兩人自然合成到同一個場景:
![]()
(圖源:雷科技自制,Qwen-Image 2.0)
你看Qwen這成品,人物一致性保持、服裝保持,包括日式居酒屋的環(huán)境,還挺驚艷的。
至于Nano Banana Pro嘛...抱歉,它說它做不到。
![]()
(圖源:雷科技自制,Nano Banana Pro)
最后,讓我們嘗試一個相對復(fù)雜的風(fēng)格遷移。
Qwen-Image 2.0并不是簡單做了黑白、去飽和度處理,而是把筆墨的干濕濃淡都表現(xiàn)出來,最終成品真的很像水墨畫。
![]()
(圖源:雷科技自制,Qwen-Image 2.0)
不開玩笑地說,雖然整個Qwen-Image-2.0在圖片審美上可能略遜于Nano Banana Pro,但是在圖像編輯的一致性,還有文字渲染的正確率上都已經(jīng)非常出色。
這么一來,我尋思我接下來的PS工具應(yīng)該是不用續(xù)費了...
總結(jié):堪稱中文版Banana
測完這一套流程,小雷看著滿文件夾的對比圖,心里的評價大概有了譜。
怎么評價Qwen-Image-2.0呢?如果非要用一個詞,我覺得應(yīng)該是“靠譜”。
從數(shù)據(jù)上看,在Ai Arena這個全球公認(rèn)的AI競技場里,Qwen-Image-2.0的排名已經(jīng)沖到了第一梯隊,甚至在某些特定指標(biāo)上(比如文本一致性、指令遵循度)把很多老牌的閉源模型甩在了身后。
![]()
(圖源:Ai Arena)
你敢信,在這樣的效果背后,Qwen-Image-2.0的模型參數(shù)居然還變少了。
從實測來看,這款模型的優(yōu)點也很明顯。
首先是真·懂中文,不管是成語還是復(fù)雜的描述,它很少出現(xiàn)理解偏差;其次是文字生成能力,這簡直是做海報的神器,徹底告別了AI生圖全是鬼畫符的時代;最后就是它的可控性,無論是修改圖片還是保持一致性,都展現(xiàn)出了極高的生產(chǎn)力屬性。
當(dāng)然,不足也是有的。比如在藝術(shù)設(shè)計上,有時候感覺稍微有點板正,成品也缺少了Nano Banana Pro那種天馬行空的驚艷感;其次,模型里的角色數(shù)據(jù)嚴(yán)重不足,需要提供詳細(xì)的角色設(shè)定,漫畫、插畫的分鏡也存在一定的提升空間。
![]()
(圖源:雷科技自制,上為Qwen-Image 2.0,下為Nano Banana Pro)
如果你是追求藝術(shù)創(chuàng)作的愛好者,可能覺得它的表現(xiàn)有點過于平淡了。
但瑕不掩瑜。
要說這次升級最明顯的一點,那肯定是Qwen-Image-2.0同時擁有文生圖和圖像編輯能力。也就是說,同一個模型不只是生成圖片,還能直接改圖、補細(xì)節(jié)、調(diào)整布局、替換元素,整個過程可以在一條指令里完成。這讓它用起來的感覺更像AI Photoshop,而不是單純的AI畫圖工具。
強大的可控性,賦予了它極高的生產(chǎn)力空間。尤其是文字生成和版式控制,讓它比很多模型都更適合做海報、電商圖、UI草圖這類商用設(shè)計。
從這個角度看,Qwen-Image-2.0的意義顯然不只是模型能力提升,阿里更希望把圖像模型變成生產(chǎn)力工具,而不是展示技術(shù)的玩具,讓它進(jìn)入電商、設(shè)計、廣告這些真實工作流。
這就是2026年AI圖像生成的水平。
而這,可能只是開始。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.