原本,小雷以為今年下半年AI圈子的熱鬧,也就是那樣了。
閉源這邊,由Gemini 3 Pro驅(qū)動的Nano-Banana Pro,幾乎改變了大家對于平面設(shè)計的認(rèn)知;開源這邊,F(xiàn)lux 2.0的突然開源,也讓普通人能夠自行部署的圖像生成效果大大提升,只要優(yōu)化做得好,人人都能跑出像模像樣的圖。
那時候同事還跟我打賭,說這兩款大模型的風(fēng)潮,最起碼能領(lǐng)跑個半年。
結(jié)果沒想到,打臉來得這么快。
就在這兩天,阿里的通義千問團(tuán)隊突然甩出了一張王炸——Z-image,上線即登頂開源社區(qū)熱門榜第一位。
![]()
(圖源:Hugging Face)
這名字聽著挺硬核,但真正嚇人的是它的定位:一款60億參數(shù)(6B)的開源圖像生成模型。
這消息一出來,我和同事都在群里炸鍋了。要知道,在現(xiàn)在的生圖領(lǐng)域,6B這個參數(shù)量,基本就是個弟弟。隔壁那些動不動幾十B甚至上百B的大模型,光是權(quán)重文件下載下來都能把硬盤塞滿。
阿里這是要干嘛?拿個“弟弟”來跟一群肌肉猛男打擂臺?
帶著這種好奇,小雷第一時間去把Z-image給拖了下來,還特意找來了兩個當(dāng)紅炸子雞——字節(jié)的豆包和最近紅得發(fā)紫的Nano-Banana Pro,看看這仨的差距到底在哪?
千問Z-image體積小,部署門檻超低
先別急著看圖,咱們得先聊聊這個Z-image到底是個什么來頭,以及如果你想玩,得準(zhǔn)備點啥。
按照官方介紹,Z-Image(中文名“造相”)是阿里巴巴通義實驗室研發(fā)并開源的高效圖像生成基礎(chǔ)模型,定位為“輕量且高性能”的AI圖像解決方案,對標(biāo)參數(shù)量20B以上的閉源旗艦?zāi)P汀?/p>
而這款產(chǎn)品本身,參數(shù)量只有6B。
在AI界,參數(shù)量大概可以理解為模型的“腦容量”。一般來說,腦容量越大,懂的知識越多,畫出來的細(xì)節(jié)越豐富,而Nano-Banana Pro之所以文生圖的效果極為出色,很大一部分原因就在于谷歌訓(xùn)練出來的極高參數(shù)量。
但代價就是,你得有個好顯卡伺候著。
以最近開源的Flux 2為例,32B的參數(shù)量,你不掏個24GB顯存的3090/4090,基本連啟動這一關(guān)都過不去。
![]()
(圖源:Flux 2)
但Z-image這個6B就很靈性了。
小雷看了一下官方文檔,它的硬件門檻簡直低得讓人感動。哪怕你是好幾年前的 RTX 3060,或者是隨便整一張顯存6GB的消費級主流顯卡,配合上現(xiàn)在成熟的量化技術(shù),也能跑得飛起。
這就意味著,你不用為了玩?zhèn)€AI畫圖,還得專門去配臺主機(jī)。你手邊那臺用來打LOL的游戲本,甚至是一些高性能的輕薄本,都能變成你的創(chuàng)意工坊。
要把這個東西跑起來,其實很簡單。
講究一點的,你可以去Hugging Face下載模型,搭配上tonyhub這類簡潔前端和一條工具流就能用。
不太講究的,只要下載ComfyUI最新版,或者是升級一下本地版,就直接可以使用了,都不需要安裝第三方節(jié)點。工作流已經(jīng)內(nèi)置了,只需要打開模板,點擊Z-image-Turbo即可,接下來按照官方提示下載、放置模型就OK了。
![]()
(圖源:ComfyUI)
當(dāng)然,如果你說小雷我連顯卡都沒有,是核顯用戶怎么辦?
也沒事,現(xiàn)在像這種開源模型,Hugging Face和阿里的魔搭社區(qū)(ModelScope)上通常都有現(xiàn)成的在線Demo。雖然排隊可能要等一會兒,但勝在白嫖,不用白不用嘛。
實戰(zhàn)表現(xiàn):體積小卻很精悍
不過,光說不練假把式。參數(shù)小了,效果是不是也跟著縮水了?
為了驗證這點,我也做了一些測試,用相同的Prompt,看看它和目前國內(nèi)外常用的兩家圖片生成大模型的對比。
先看幾個純粹的生圖效果。
Prompt:人類考古學(xué)家在金字塔挖掘現(xiàn)場發(fā)現(xiàn)一個旋轉(zhuǎn)金屬球的真實手持拍攝,手持紀(jì)錄片現(xiàn)實主義,真實手持風(fēng)格。
![]()
![]()
![]()
(自上而下為,Z-image/豆包/Nano-Banana Pro)
在這組圖片中,只有Nano-Banana Pro能夠還原出紀(jì)錄片拍攝的界面和質(zhì)感。
至于Z-image和豆包,他倆在這張圖片上的表現(xiàn)其實相差無幾,但是Z-image圖片的一致性則明顯有點偏高,多次反復(fù)嘗試,在相同參數(shù)下得出來的結(jié)果都是極為相似的,根據(jù)網(wǎng)友分析,可能是內(nèi)置參數(shù)帶來的影響。
![]()
(圖源:Z-image)
再來一張人像,試試三家的成色。
Prompt:一張平平無奇的iPhone照片,無精心構(gòu)圖和打光,日常快拍,松弛氛圍感亞洲美女,穿著寬松厚毛衣與牛仔闊腿褲,舒適隨性。她隨意站在街頭或咖啡館門口,肩上自然背著一只單肩包,款式簡潔低調(diào),增添生活氣息。
![]()
![]()
![]()
(自上而下為,Z-image/豆包/Nano-Banana Pro)
在這組圖片中,三張圖片都沒有什么問題,都可以做到真實感強(qiáng),光影自然,畫面里頭也不存在明顯的呲漏。
要真說有啥不同,明顯Z-image和豆包更符合國人審美,而Nano-Banana Pro生成的華人有明顯的ABC特征。
接下來,我們試一下簡單的海報設(shè)計,Prompt太長就不在這里列舉了:
![]()
![]()
![]()
(自上而下為,Z-image/豆包/Nano-Banana Pro)
這組圖很有意思,可以看出,在更新迭代后,Nano-Banana Pro應(yīng)對一般的中文嵌入已經(jīng)沒啥問題了。
論細(xì)節(jié)和光影的話,這我覺得大家都在伯仲之間。
既然單格圖片問題不大,那么多格圖片教程又如何呢?
Prompt:手賬風(fēng)格,出一個番茄炒蛋的制作步驟教程圖,步驟說明要中文,落款是##。
![]()
![]()
![]()
(自上而下為,Z-image/豆包/Nano-Banana Pro)
這組圖差距就很明顯了,我們不難看出,只有Nano-Banana Pro能夠掌握多格圖片的生成和數(shù)字順序的含義,基本上一次出圖。
Z-image這邊,粗看是有那么點意思,但是數(shù)字標(biāo)注完全是錯的。
最后,讓我們看看二次元/漫畫圖片的生成。
Prompt:日本漫畫風(fēng)格,初音未來和洛天依撕開一張海報并穿越到現(xiàn)實中,酷炫的彩鉛作畫,動態(tài)多彩的畫面。
![]()
![]()
![]()
(自上而下為,Z-image/豆包/Nano-Banana Pro)
這一對比,差距馬上就出來了,只有Nano-Banana Pro知道兩位角色,構(gòu)圖也很有意思,豆包雖然沒有洛天依的概念,但是起碼還有個構(gòu)圖的優(yōu)勢,Z-Image就是根本不知道在干些什么了。
只能說,在知識量這塊,Z-Image確實還是比不上閉源模型。
至于圖生圖,或者圖片編輯之類的能力,目前開源的Z-Image-Turbo是沒有的,咱們還是等等Z-Image-Edit吧。
評測總結(jié):堪稱圖片AIGC開源界扛把子?
測完這幾輪,小雷心里的評價大概有了譜。
Z-image強(qiáng)嗎?強(qiáng)。
在中文語境的理解、在單張圖片的審美、以及最重要的——在硬件資源的利用率上,它簡直是當(dāng)下開源界的T0級別。
雖然在復(fù)雜推理和精準(zhǔn)編輯上,它還打不過Nano-Banana Pro這樣的閉源大佬,目前也缺失了圖片編輯相關(guān)的能力,但在90%的日常使用場景里,它已經(jīng)能做到“夠用”甚至“好用”。
這對于那些想嘗試AIGC的中小企業(yè),或者是像我們這種想在本地搞搞創(chuàng)作的個人用戶來說,意義太大了。
而且別忘了,它是開源的。
這意味著什么?意味著明天可能就會有大神在它的基礎(chǔ)上,訓(xùn)練出專門畫二次元的、專門畫建筑設(shè)計的、專門做電商海報的各種微調(diào)模型。
![]()
(圖源:Reddit)
就像當(dāng)年的安卓手機(jī)一樣,一開始可能不如蘋果流暢,但架不住玩的人多、改的人多,生態(tài)一旦起來了,那爆發(fā)力是驚人的。
所以,如果你問小雷:Z-image值得折騰嗎?
我的回答是:只要你有張顯卡,哪怕是入門級的,都值得下下來玩玩。
畢竟,不用花錢,不用買昂貴的算力,就能在自己硬盤里養(yǎng)一個隨叫隨到的畫手,這種把技術(shù)握在自己手里的感覺,可是那些在線生成平臺給不了的。
而且按照阿里這個“卷”法,我有預(yù)感,明年這個時候,我們可能就能在手機(jī)上跑這種級別的模型了。
到時候,人人都是神筆馬良的時代,可能真的就不遠(yuǎn)了。
CES2026開幕在即!(1月6日-1月9日)
作為中國報道科技展會最悠久、最深入、最專業(yè)的新媒體,雷科技CES2026報道團(tuán)正在進(jìn)行緊張的前期籌備。屆時雷科技將派出史上最大規(guī)模的CES報道團(tuán),并由雷科技創(chuàng)始人兼總編輯羅超帶隊,對CES2026進(jìn)行一線、專業(yè)和立體報道,敬請期待!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.