作者|子川
來源|AI先鋒官
又一個好玩的圖像生成模型開源啦!
近兩個月的圖像生成模型可謂是神仙打架。
前有谷歌的Nano Banana將圖片生成的一致性提升到了一個新高度。
后有字節的Seedream4.0重磅出擊,超越Nano Banana,在Artificial Analysis等榜單中排名第一。
這不,騰訊的混元圖像3.0也來了!
完全開源,免費使用!
![]()
唯一可惜的是,混元圖像3.0目前僅支持文生圖功能。
據透露,圖生圖、圖像編輯、多輪交互等版本將于后續發布。
根據混元團隊介紹:混元圖像3.0是首個工業級原生多模態圖像生成模型,參數規模達到80B。
它是目前測評效果最好、參數量最大的開源圖像生成模型,效果可對標業界頭部閉源模型。
在混元團隊發布的SSAE智能評估中,混元圖像3.0的能力非常接近Nano Banana和Seedream4.0。
![]()
同時,此次發布的混元圖像3.0特點非常明顯。
具備語言模型的思考能力,能利用知識進行推理。
美學質感得到提升,能生成真實的高質感圖片。
可以理解上千字的提示詞,生成長文本文字和小文字。
下面是我測試的幾個例子,效果確實非常頂!
提示詞:手賬風格,做一個月餅制作的步驟教程圖,步驟說明要中文。
![]()
可以看到混元圖像3.0真的理解了如何制作月餅,揉面團、包餡料、壓模具,整個過程非常清晰明了。
搭配的文字也十分正確。
即使你的提示詞非常發散,它也能理解。
比如下面例子,讓它做一個廣州一日游的旅游漫畫。
提示詞:幫我生成廣州一日游的旅游漫畫
![]()
早茶、逛廣州臺,再到陳家祠,這效果完全可以直接去用來發一篇小紅書筆記了。
再來看看它的文字能力。
提示詞:一幅有趣的3D插圖,整體采用卡通+3D擬物風格,色彩飽和度高,突出視覺吸引力;主題文案白色字體“國慶假期出游季”,采用潮流派對風格藝術字體,模擬真手寫筆觸,字體筆畫粗厚醒目,形態夸張變形,部分筆畫帶俏皮弧度或獨特彎折,營造活潑、肆意、充滿活力的派對氛圍。加入綠色線條和飛機圖標裝飾。搭配英文字體“Happy Travel”進行排版;一個女孩,俯視魚眼鏡頭,身穿白色背心,綠色夾克,藍色牛仔短褲,一只手伸向前拿著旅游地圖遞出去的動作,從下往上拍攝,比例很夸張,強烈的仰視透視感,廣角,背景為場景北京微縮景觀模型地標景點(故宮、頤和園、中國尊,山水,現代城市風貌),藍天白云動態模糊的樹葉裝飾。
![]()
是不是有一種海報直出的既視感!美感、排版都十分在線,完全不需要修改。
就算我的提示詞中加了很多元素,它也能很好的get到,并且生成非常好看的圖片。
提示詞:微縮海報設計,鳥瞰圖,在蔚藍色海面上,一把吉他由公路島嶼拼接而成,每根琴弦都是公路拼接出來,島嶼里長滿了茂密的椰樹,還有有道路、樓宇、吊塔、公園、車輛等元素,島嶼外是淡藍色海面,島嶼之間用橋梁連接,海面上還有一些游艇、直升飛機、碼頭、鯨魚、輪船、海鳥等,專業相機拍攝,逼真,3D渲染。
![]()
這張圖完美詮釋了混元圖像3.0強大的多元素理解能力。
吉他造型的島嶼、公路琴弦、茂密的椰樹、精致的樓宇、蜿蜒的道路,甚至海面上的游艇、直升機、碼頭、鯨魚、輪船、海鳥,每一個元素都很清晰。
除此之外,它的美感也相當不錯。
提示詞:具有東方神韻的人物,丹鳳眼,白皙皮膚,穿著傳統中式長袍,黑色搭配綠色領口,頭飾采用大型中式傳統冠帽,藍紫色調為主,動畫風格,具有奇幻色彩,融合中國風元素,奇幻氛圍,特寫鏡頭寫,大寫意,鏤空雕塑展示飛白效果,彩墨暈染,超低仰角視角,寫實風格,細節豐富細膩,達芬奇藝術塑形,時尚潮流感,超大仰角,山海經形象,oc渲染,抽象風格,強調形狀和線條的組合,完整的主體突出簡潔之美,漩渦、波紋等形態,超寫實攝影,精致奢華風格,外形優美,暴力美學,局部裝飾云雷紋,超前設計潮酷,潮玩形式,邊緣清晰,身材比例超一流,香港黃玉郎畫風格,手寫簽名R6visual。虛幻引擎,整體純色背景,中國風,絲滑流暢圓潤,潦草,威武,壓迫感,藝術大師海報構圖,輪廓光,專業攝影光照。
![]()
從丹鳳眼到傳統中式長袍,再到紫色調的冠帽,每個細節都處理得恰到好處。尤其是整體的色彩搭配和構圖,營造出一種既古典又充滿神秘感的氛圍。
是不是效果還不錯!
那么問題來了,那它和字節的Seedream4.0相比到底如何?是否能翻越Seedream4.0這座大山?
老規矩,我們測一測。
此次測試的規則使用是相同的提示詞生成8張圖片,最后挑選最優來展示。
3D藝術
提示詞:蜜雪冰城,Q版門店,紅色和金色色調組合,金色和紅點綴,透明反光玻璃質感,透明感,UI設計風格,光線追蹤,干凈背景,參考Pinterest、Dribbble 風格,使用OC渲染器,細節豐富,16K高清,淺色背景,大面積留白。
Seedream4.0
![]()
混元圖像3.0
![]()
這一組的效果對比非常明顯。Seedream4.0似乎對“蜜雪冰城”有更深的理解。
生成的Q版門店不僅包含了招牌、飲品制作機器、隨處可見的Logo,甚至連門口的海報都精準還原。
反觀混元圖像3.0,雖然也生成了Q版門店,但除了名字之外,其他元素與蜜雪冰城的關聯度非常低低。
文字排版
提示詞:側貼片設計,3D立體效果,液態牛奶質感文字設計,整體文字飛濺的牛奶形態元素,高清,背景為綠色純色。主標“全場實付滿贈”字體一排 滿¥399贈送一盒125ML牛奶 聯系12號客服領取。
Seedream4.0
![]()
混元圖像3.0
![]()
同樣是3:4的尺寸,混元圖像3.0會給人一種要把文字占滿圖片的既視感。
而Seedream4.0則是文字一列排開,文字排布主次分明,能讓用戶一下子抓到重點。
思考推理
提示詞:手賬風格,做一個茄子煲的步驟教程圖,步驟說明要中文
Seedream4.0
![]()
混元圖像3.0
![]()
有時候,提示詞越少反而越考驗模型的能力。
像上面的提示詞,不僅需要模型推理思考茄子煲是如何制作的。
還要考慮圖片最后的呈現形式是怎么樣的的. 結果依舊很明顯,Seedream4.0勝出。
美感
提示詞:打網球的青年,四肢健壯,穿著短袖T恤,短褲,運動鞋,全身,運動服飾,夸張比例,青春活力,健康的生活方式,多彩,藍色背景,卡通,C4D
Seedream4.0
![]()
混元圖像3.0
![]()
這次混元圖像3.0終于勝出,它在顏色搭配以及質感方面要比Seedream4.0強上不少。
多提示詞理解能力
提示詞:可愛俏皮,美麗大方,抽繩掛脖無袖。胸前交錯綁帶設計。寬松娃娃衫飄逸裙擺,大裙擺,自然垂墜面料。層層疊疊短,蓬松裙,花苞裙。可愛長筒襪搭配高跟短靴。佩戴項鏈。卷發。編發。發飾。高品質,高質量,畫質清晰,高冷,慵懶,意識流,CG質感,寫實攝影,朦朧,T臺自信灑脫。愛豆風格服飾,細膩肌理,姿態自然,全身比例。全身視角。 幾何圖案、超現實風格,電影質感風格,全身鏡頭,超廣角,強透視,景深,神秘、狂亂、酷炫、個性的氛圍,抽象,多重,黑白,灰度,暗黑,多重曝光,失焦,高噪點,強烈膠片顆粒感,動態美學,彌散模糊暈染,朦朧美學,夸張構圖,細節生動完美,肌膚上色。全彩色
Seedream4.0
![]()
混元圖像3.0
![]()
大家有沒有直觀的感覺到這兩張圖片的不同之處?
Seedream4.0中的人物是彩色的,而混元圖像3.0生成的人物則是灰色的。
為什么會有這樣的差別,原因就是在提示詞的理解上,小編在提示詞的最后加上了”肌膚上色。全彩色"。
Seedream4.0很好的get到這個點,并且生成出來了,反觀混元圖像3.0則沒有理解這層意思。
總的來說,混元圖像3.0是一個非常不錯的生圖模型,無論在生成中文的能力還是理解能力,較上一代都有十足的進步。
但奈何遇到了Seedream4.0這位真霸主。
目前混元圖像3.0已經正式上線騰訊混元官網,感興趣的可以去體驗一下。
同時模型權重和加速版本已在Github、HuggingFace等開源社區發布,可直接下載并免費使用。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.