作者|子川
來源|AI先鋒官
還得是阿里,又開源啦!
就在大家還在討論谷歌Nano Banana Pro有多強的時候,阿里云直接扔出一個王炸——Z-Image圖像生成模型,而且是完全開源!
![]()
據(jù)介紹,Z-Image此次參數(shù)只有6B,但生成效果卻能媲美20B參數(shù)的商業(yè)模型!![]()
并且,阿里用的是Apache 2.0許可,這意味著所有人都能免費商用,直接拿去賺錢都沒問題!
阿里這波格局屬實拉滿了。
目前Z-Image有三個變體:Z-Image-Turbo主打快速推理,是目前主推版本;
Z-Image-Base是未經(jīng)蒸餾的基礎(chǔ)模型,適合二次開發(fā)和微調(diào);
Z-Image-Edit專門為圖像編輯任務(wù)調(diào)優(yōu),支持通過自然語言指令編輯圖像。
目前大家用的是這個Trubo精簡版本,也就是單純的文生圖版本,base正式版以及Edit編輯版本,后續(xù)會推出。
![]()
基于Elo的人類偏好評估(AI Arena上),Z-Image-Turbo已經(jīng)沖擊到第四名,也是目前開源第一。
![]()
那Z-Image-Turbo的實際效果到底如何,老規(guī)矩,我們實測對比一下。
要挑戰(zhàn)肯定是最強的,畢竟大家只會記得誰是最強的。
于是此次Z-Image-Turbo的對手是谷歌剛發(fā)布不久的Nano Banana Pro,看看它們兩差距到底在哪?
為了讓測試成績更準(zhǔn)確,每款模型生成2次取最好的那一次。
話不多說,直接進入我們的實測環(huán)節(jié)。
提示詞:現(xiàn)代藝術(shù)風(fēng)格海報,畫面主體為一頭棕白相間的牛站立在翠綠的草原上,背景是開闊的綠色草地與淡藍色天空,上方有藍色藝術(shù)字體,包含 “別看了。你才是牛馬” 等內(nèi)容,左側(cè)配有 “牛馬的世界 沒有邊界” 文字描述,牛的輪廓用藍色線條勾勒,整體色調(diào)以藍色、綠色、棕色、白色為主,色彩對比鮮明,采用平視視角,營造出潮流且?guī)в哪{(diào)侃的氛圍。
Nano Banana Pro:
![]()
Z-Image-Turbo:
![]()
兩款模型的風(fēng)格各不相同,但無論是中文文字的呈現(xiàn),還是最終呈現(xiàn)的畫面,效果都還不錯。
不過Nano Banana Pro 的作品里,牛與背景有抽離感,色彩不如Z-Image-Turbo自然。
提示詞:手賬風(fēng)格,出一個肉粽的制作步驟教程圖,步驟說明要中文
Nano Banana Pro:
![]()
Z-Image-Turbo:
![]()
這組對比就相差較大了,Nano Banana Pro無論是排版還是畫面元素,都要精美很多。
提示詞:以藍圖的風(fēng)格制作Q版的藍綠色鸚鵡,吉祥物玩偶,毛茸茸,設(shè)計草圖。并包括尺寸和解釋性文本注釋。使用中文介紹,應(yīng)使用線條和測量值來指示各個部位的尺寸,給草圖以技術(shù)和詳細的感覺。除了主要設(shè)計外,還包括顯示不同角度的零散縮略圖,立體景深
Nano Banana Pro:
![]()
Z-Image-Turbo:
![]()
這里可以很明顯的看出Z-Image-Turbo生成的圖片中文字不完整,看不出圖中注釋的意思,這局依舊Nano Banana Pro勝出。
提示詞:生成一張極具現(xiàn)代感的手機屏幕玻璃擬態(tài)風(fēng)格的視覺設(shè)計樣機圖,一只手拿著一個正面半透明的玻璃質(zhì)感圓角矩形面板的手機,邊緣柔和,背景白色,面板上顯示微信的聊天頁面,聊天頁面?zhèn)渥椤盁o言”。 左側(cè)頭像是人影在藍天下,聊天留言一條消息“早安吉祥”,右側(cè)頭像是一個機械貓,聊天的信息“晨光正好,萬物可愛,早安呀!”與背景形成溫和對比。 整體風(fēng)格高級、溫暖、藝術(shù)化,同時保持現(xiàn)代和未來感
Nano Banana Pro:
![]()
Z-Image-Turbo:
![]()
對比兩張圖片,會發(fā)現(xiàn)Z-Image-Turbo并沒有完成提示詞中“右側(cè)頭像是一個機械貓”這一指令。
并且Nano Banana Pro藝術(shù)感和未來感要更強,更符合提示詞的描述。
提示詞:瘋狂動物城3D動畫風(fēng)格,尼克·王爾德(一只橙紅色的狐貍,穿著綠色襯衫和深藍色領(lǐng)帶)正拿著一部手機,手機屏幕朝向觀眾,屏幕上清晰顯示著朱迪·霍普斯的丑照(朱迪做著夸張的鬼臉,表情非常滑稽),尼克看著前方,臉上露出得意的壞笑。朱迪·霍普斯(一只灰白色的兔子,穿著藍色警服)緊貼在尼克身后,雙手高高舉起一根巨大的橙色胡蘿卜,朱迪做出用力向下砸的動作姿態(tài),朱迪的表情非常憤怒和兇狠,眼睛瞪得很大,嘴巴張開。整個畫面充滿緊張感,仿佛下一秒胡蘿卜就要重重砸到尼克的頭上。背景是瘋狂動物城的街道場景,有彩色的建筑和溫暖的光線。整體畫面充滿喜劇感和動畫電影的質(zhì)感。注意肢體協(xié)調(diào),無錯位
Nano Banana Pro:
![]()
Z-Image-Turbo:
![]()
細看這兩張圖都很難挑出毛病,但Z-Image-Turbo在提示詞遵循方面差點意思。
提示詞是這樣表達的:朱迪的表情非常憤怒和兇狠,眼睛瞪得很大,嘴巴張開。整個畫面充滿緊張感
Z-Image-Turbo生成的圖片并沒有呈現(xiàn)提示詞所表達的意思。
提示詞:創(chuàng)作一幅極具科技感的3D立體剖面信息圖,旨在展示現(xiàn)代可回收軌道運載火箭的內(nèi)部結(jié)構(gòu)與運作原理。圖面以高度還原和精細化的方式呈現(xiàn),將火箭主體(包括整流罩、有效載荷艙、二級箭體、一級箭體、尾段與多臺主發(fā)動機集群等)進行半拆解式的剖面處理,清晰揭示其復(fù)雜的內(nèi)在構(gòu)造。關(guān)鍵子系統(tǒng)與零部件(例如:衛(wèi)星/貨艙載荷模塊、姿態(tài)與制導(dǎo)控制艙、推進劑氧化劑與燃料貯箱、貯箱隔板與支撐結(jié)構(gòu)、級間段、推進劑輸送管路與渦輪泵、主發(fā)動機燃燒室與噴管、柵格舵/尾翼、著陸腿與緩沖機構(gòu)、電源與航電艙、環(huán)境控制與熱防護結(jié)構(gòu)等)被有序地拆解、分層、懸浮排列,并用精細的引導(dǎo)線連接至主體。每個主要部分都配有清晰、專業(yè)的英文標(biāo)注,注明結(jié)構(gòu)名稱及其簡潔的功能描述(如“Liquid Oxygen Tank – Stores oxidizer for main engines”)。整體布局追求極致的整潔與工程邏輯性,背景干凈克制,配色偏冷色與金屬質(zhì)感,整體風(fēng)格宛如一張未來感十足的交互式高級航天工程藍圖,強調(diào)火箭從起飛、分離到回收著陸的關(guān)鍵工作原理。
Nano Banana Pro:
![]()
Z-Image-Turbo:
![]()
同樣Z-Image-Turbo這次中文呈現(xiàn)的效果依舊不行,里面的中文字識別不出,特別是文字多的畫面。
下面再來看看人物寫真方面的表現(xiàn)。
提示詞:這是一組極簡又充滿清新感的寫真。以純凈的白色為背景,讓視覺焦點完全集中在人物身上。一位年輕女性穿著簡約的白色吊帶,突出干凈、素雅的氣質(zhì);發(fā)型是黑色微卷長發(fā),搭配兩朵藍紫色系的仿真花作為發(fā)飾,色彩清新又吸睛,為整體造型增添了自然靈動感。畫面氛圍柔和,仿佛能感受到靜謐溫柔的氣息,很適合展現(xiàn)簡約卻又不失精致的美感,仿佛將春日里花朵的清新與少女的恬靜融合在了一起。
Nano Banana Pro:
![]()
Z-Image-Turbo:
![]()
這次,Z-Image-Turbo終于扳回一城,特別是在氛圍感和精致度方面,比Nano Banana Pro效果好。
總體體驗下來,Z-Image-Turbo和Nano Banana Pro相差還是有點大,特別是在中文文字的呈現(xiàn)。
不過Z-Image-Turbo也有自己的優(yōu)勢,人物形象更加的真實、更符合國人的審美。
但!
畢竟Z-Image-Turbo開源了,且大家可以無限免費試用,而且還是Apache 2.0許可,這點可一點都不輸。
目前Z-Image-Turbo已經(jīng)可以在ModelScope提供在線體驗和模型下載,感興趣的可以試玩一下。
掃碼邀請進群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.